SampleRNN: An Unconditional End-to-End Neural Audio Generation Model

22 December 2016

Aaron Courville

Papers citing "SampleRNN: An Unconditional End-to-End Neural Audio Generation Model"

50 / 274 papers shown

Title
Implicit Neural Representations with Periodic Activation Functions Vincent Sitzmann Julien N. P. Martel Alexander W. Bergman David B. Lindell Gordon Wetzstein AI4TS 47 2,486 0 17 Jun 2020
Deep generative models for musical audio synthesis M. Huzaifah L. Wyse 27 20 0 10 Jun 2020
End-to-End Adversarial Text-to-Speech Jeff Donahue Sander Dieleman Mikolaj Binkowski Erich Elsen Karen Simonyan 17 185 0 05 Jun 2020
CSTNet: Contrastive Speech Translation Network for Self-Supervised Speech Representation Learning Sameer Khurana Antoine Laurent James R. Glass SSL 17 12 0 04 Jun 2020
A Convolutional Deep Markov Model for Unsupervised Speech Representation Learning Sameer Khurana Antoine Laurent Wei-Ning Hsu J. Chorowski A. Lancucki R. Marxer James R. Glass SSL BDL 22 29 0 03 Jun 2020
NAUTILUS: a Versatile Voice Cloning System Hieu-Thi Luong Junichi Yamagishi 26 51 0 22 May 2020
Investigation of learning abilities on linguistic features in sequence-to-sequence text-to-speech synthesis Yusuke Yasuda Xin Wang Junichi Yamagishi AI4TS 14 31 0 20 May 2020
Quasi-Periodic Parallel WaveGAN Vocoder: A Non-autoregressive Pitch-dependent Dilated Convolution Model for Parametric Speech Generation Yi-Chiao Wu Tomoki Hayashi T. Okamoto Hisashi Kawai T. Toda 29 4 0 18 May 2020
Many-to-Many Voice Transformer Network Hirokazu Kameoka Wen-Chin Huang Kou Tanaka Takuhiro Kaneko Nobukatsu Hojo T. Toda ViT 27 30 0 18 May 2020
Reverberation Modeling for Source-Filter-based Neural Vocoder Yang Ai Xin Wang Junichi Yamagishi Zhenhua Ling 12 3 0 15 May 2020
Multi-band MelGAN: Faster Waveform Generation for High-Quality Text-to-Speech Geng Yang Shan Yang Kai-Chun Liu Peng Fang Wei Chen Lei Xie 64 198 0 11 May 2020
GACELA -- A generative adversarial context encoder for long audio inpainting Andrés Marafioti P. Majdak Nicki Holighaus Nathanael Perraudin 35 43 0 11 May 2020
From Speaker Verification to Multispeaker Speech Synthesis, Deep Transfer with Feedback Constraint Zexin Cai Chuxiong Zhang Ming Li 24 41 0 10 May 2020
Multi-scale Transformer Language Models Sandeep Subramanian R. Collobert MarcÁurelio Ranzato Y-Lan Boureau 6 13 0 01 May 2020
Jukebox: A Generative Model for Music Prafulla Dhariwal Heewoo Jun Christine Payne Jong Wook Kim Alec Radford Ilya Sutskever VLM 25 722 0 30 Apr 2020
Knowledge-and-Data-Driven Amplitude Spectrum Prediction for Hierarchical Neural Vocoders Yang Ai Zhenhua Ling 6 8 0 16 Apr 2020
From Artificial Neural Networks to Deep Learning for Music Generation -- History, Concepts and Trends Jean-Pierre Briot MGen 16 76 0 07 Apr 2020
Speech Quality Factors for Traditional and Neural-Based Low Bit Rate Vocoders Wissam A. Jassim Jan Skoglund Michael Chinen Andrew Hines 9 8 0 26 Mar 2020
Deep Learning for Source Code Modeling and Generation: Models, Applications and Challenges T. H. Le Hao Chen Muhammad Ali Babar VLM 64 152 0 13 Feb 2020
Deep Audio-Visual Learning: A Survey Hao Zhu Mandi Luo Rui Wang A. Zheng Ran He 31 156 0 14 Jan 2020
DDSP: Differentiable Digital Signal Processing Jesse Engel Lamtharn Hantrakul Chenjie Gu Adam Roberts DiffM 94 373 0 14 Jan 2020
Probing the phonetic and phonological knowledge of tones in Mandarin TTS models Jian Zhu 18 8 0 23 Dec 2019
Connecting Vision and Language with Localized Narratives Jordi Pont-Tuset J. Uijlings Soravit Changpinyo Radu Soricut V. Ferrari ObjD 33 241 0 06 Dec 2019
WaveFlow: A Compact Flow-based Model for Raw Audio Ming-Yu Liu Kainan Peng Kexin Zhao Z. Song 17 116 0 03 Dec 2019
SchrödingeRNN: Generative Modeling of Raw Audio as a Continuously Observed Quantum State Beñat Mencia Uranga A. Lamacraft 20 3 0 26 Nov 2019
Seq-U-Net: A One-Dimensional Causal U-Net for Efficient Sequence Modelling Ruizhe Zhao Brian K. Vogel Tanvir Ahmed Wayne Luk 22 37 0 14 Nov 2019
Transferring neural speech waveform synthesizers to musical instrument sounds generation Yi Zhao Xin Wang Lauri Juvela Junichi Yamagishi 24 16 0 27 Oct 2019
Vision-Infused Deep Audio Inpainting Hang Zhou Ziwei Liu Lingfeng Guo Ping Luo Dahua Lin 35 88 0 24 Oct 2019
Fast and High-Quality Singing Voice Synthesis System based on Convolutional Neural Networks Kazuhiro Nakamura Shinji Takaki Kei Hashimoto Keiichiro Oura Yoshihiko Nankaku K. Tokuda 11 19 0 24 Oct 2019
Dual-path RNN: efficient long sequence modeling for time-domain single-channel speech separation Yi Luo Zhuo Chen Takuya Yoshioka AI4TS 28 753 0 14 Oct 2019
MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis Kundan Kumar Rithesh Kumar T. Boissière L. Gestin Wei Zhen Teoh Jose M. R. Sotelo A. D. Brébisson Yoshua Bengio Aaron Courville GAN 8 937 0 08 Oct 2019
Attention Forcing for Sequence-to-sequence Model Training Qingyun Dou Yiting Lu Joshua Efiong Mark J. F. Gales 27 6 0 26 Sep 2019
High Fidelity Speech Synthesis with Adversarial Networks Mikolaj Binkowski Jeff Donahue Sander Dieleman Aidan Clark Erich Elsen Norman Casagrande Luis C. Cobo Karen Simonyan 235 239 0 25 Sep 2019
Temporal FiLM: Capturing Long-Range Sequence Dependencies with Feature-Wise Modulations Sawyer Birnbaum Volodymyr Kuleshov S. Enam Pang Wei Koh Stefano Ermon AI4TS 16 68 0 14 Sep 2019
GAN-Leaks: A Taxonomy of Membership Inference Attacks against Generative Models Dingfan Chen Ning Yu Yang Zhang Mario Fritz 15 52 0 09 Sep 2019
Demucs: Deep Extractor for Music Sources with extra unlabeled data remixed Alexandre Défossez Nicolas Usunier Léon Bottou Francis R. Bach 25 84 0 03 Sep 2019
Overview of Tasks and Investigation of Subjective Evaluation Methods in Environmental Sound Synthesis and Conversion Yuki Okamoto Keisuke Imoto Tatsuya Komatsu Shinnosuke Takamichi Takumi Yagyu Ryosuke Yamanishi Y. Yamashita 9 5 0 27 Aug 2019
PixelVAE++: Improved PixelVAE with Discrete Prior Hossein Sadeghi Evgeny Andriyash W. Vinci L. Buffoni Mohammad H. Amin BDL DRL 21 33 0 26 Aug 2019
Statistical Voice Conversion with Quasi-Periodic WaveNet Vocoder Yi-Chiao Wu Patrick Lumban Tobing Tomoki Hayashi Kazuhiro Kobayashi T. Toda 13 2 0 21 Jul 2019
Generative Models for Automatic Chemical Design Daniel Schwalbe-Koda Rafael Gómez-Bombarelli MedIm AI4CE 32 81 0 02 Jul 2019
Quasi-Periodic WaveNet Vocoder: A Pitch Dependent Dilated Convolution Model for Parametric Speech Generation Yi-Chiao Wu Tomoki Hayashi Patrick Lumban Tobing Kazuhiro Kobayashi T. Toda 13 16 0 01 Jul 2019
Analysis by Adversarial Synthesis -- A Novel Approach for Speech Vocoding Ahmed Mustafa A. Biswas Christian Bergler Julia Schottenhamml Andreas Maier GAN 11 4 0 01 Jul 2019
A Neural Vocoder with Hierarchical Generation of Amplitude and Phase Spectra for Statistical Parametric Speech Synthesis Yang Ai Zhenhua Ling 13 29 0 23 Jun 2019
Cascaded Cross-Module Residual Learning towards Lightweight End-to-End Speech Coding Kai Zhen Jongmo Sung Mi Suk Lee Seungkwon Beack Minje Kim 27 39 0 18 Jun 2019
A Unified Speaker Adaptation Method for Speech Synthesis using Transcribed and Untranscribed Speech with Backpropagation Hieu-Thi Luong Junichi Yamagishi 32 10 0 18 Jun 2019
MelNet: A Generative Model for Audio in the Frequency Domain Sean Vasquez M. Lewis DiffM 19 131 0 04 Jun 2019
Blow: a single-scale hyperconditioned flow for non-parallel raw-audio voice conversion Joan Serrà Santiago Pascual Carlos Segura CVBM 15 84 0 03 Jun 2019
Problem-Agnostic Speech Embeddings for Multi-Speaker Text-to-Speech with SampleRNN David Álvarez Santiago Pascual A. Bonafonte 11 12 0 03 Jun 2019
Complex-valued neural networks for machine learning on non-stationary physical data Jesper Sören Dramsch M. Lüthje Anders Christensen 36 35 0 29 May 2019
A general-purpose deep learning approach to model time-varying audio effects M. M. Ramírez Emmanouil Benetos Joshua D. Reiss KELM 19 19 0 15 May 2019