Title
CUHK-EE Voice Cloning System for ICASSP 2021 M2VoC Challenge Daxin Tan Hingpang Huang Guangyan Zhang Tan Lee 65 6 0 08 Mar 2021
Investigating on Incorporating Pretrained and Learnable Speaker Representations for Multi-Speaker Multi-Style Text-to-Speech C. Chien Jheng-hao Lin Chien-yu Huang Po-Chun Hsu Hung-yi Lee 117 70 0 06 Mar 2021
AdaSpeech: Adaptive Text to Speech for Custom Voice Mingjian Chen Xu Tan Bohan Li Yanqing Liu Tao Qin Sheng Zhao Tie-Yan Liu VLM DiffM 93 192 0 01 Mar 2021
Deepfakes Generation and Detection: State-of-the-art, open challenges, countermeasures, and way forward Momina Masood M. Nawaz K. Malik A. Javed Aun Irtaza AAML 198 321 0 25 Feb 2021
Whispered and Lombard Neural Speech Synthesis Qiong Hu T. Bleisch Petko N. Petkov T. Raitio Erik Marchi V. Lakshminarasimhan 63 14 0 13 Jan 2021
Synth2Aug: Cross-domain speaker recognition with TTS synthesized speech Yiling Huang Yutian Chen Jason W. Pelecanos Quan Wang 98 12 0 24 Nov 2020
Using IPA-Based Tacotron for Data Efficient Cross-Lingual Speaker Adaptation and Pronunciation Enhancement Hamed Hemati Damian Borth 69 9 0 12 Nov 2020
Large-scale multilingual audio visual dubbing Yi Yang Brendan Shillingford Yannis Assael Miaosen Wang Wendi Liu ... Eren Sezener Luis C. Cobo Misha Denil Y. Aytar Nando de Freitas 70 21 0 06 Nov 2020
A Survey on Machine Learning from Few Samples Jiang Lu Pinghua Gong Jieping Ye Jianwei Zhang Changshu Zhang 98 52 0 06 Sep 2020
Unsupervised Learning For Sequence-to-sequence Text-to-speech For Low-resource Languages Haitong Zhang Yue Lin 53 30 0 11 Aug 2020
Data Efficient Voice Cloning from Noisy Samples with Domain Adversarial Training Jian Cong Shan Yang Lei Xie Guoqiao Yu Guanglu Wan 72 31 0 10 Aug 2020
Speaker Conditional WaveRNN: Towards Universal Neural Vocoder for Unseen Speaker and Recording Conditions D. Paul Yannis Pantazis Y. Stylianou DRL 59 30 0 09 Aug 2020
NAUTILUS: a Versatile Voice Cloning System Hieu-Thi Luong Junichi Yamagishi 90 53 0 22 May 2020
Attentron: Few-Shot Text-to-Speech Utilizing Attention-Based Variable-Length Embedding Seungwoo Choi Seungju Han Dongyoung Kim S. Ha 91 66 0 18 May 2020
AdaDurIAN: Few-shot Adaptation for Neural Text-to-Speech with DurIAN Zewang Zhang Qiao Tian Heng Lu Ling-Hao Chen Shan Liu 62 27 0 12 May 2020
BOFFIN TTS: Few-Shot Speaker Adaptation by Bayesian Optimization Henry B. Moss Vatsal Aggarwal N. Prateek Javier I. González Roberto Barra-Chicote BDL 51 57 0 04 Feb 2020
Mel-spectrogram augmentation for sequence to sequence voice conversion Yeongtae Hwang Hyemin Cho Hongsun Yang Dong-Ok Won Insoo Oh Seong-Whan Lee 50 15 0 06 Jan 2020
DAWSON: A Domain Adaptive Few Shot Generation Framework Weixin Liang Zixuan Liu Can Liu 65 45 0 02 Jan 2020
Voice Transformer Network: Sequence-to-Sequence Voice Conversion Using Transformer with Text-to-Speech Pretraining Wen-Chin Huang Tomoki Hayashi Yi-Chiao Wu Hirokazu Kameoka Tomoki Toda 65 99 0 14 Dec 2019
Disentangling Timbre and Singing Style with Multi-singer Singing Synthesis System Juheon Lee Hyeong-Seok Choi Junghyun Koo Kyogu Lee 27 18 0 29 Oct 2019
Weakly Supervised Disentanglement with Guarantees Rui Shu Yining Chen Abhishek Kumar Stefano Ermon Ben Poole CoGe DRL 132 139 0 22 Oct 2019
Low Bit-Rate Speech Coding with VQ-VAE and a WaveNet Decoder Cristina Garbacea Aaron van den Oord Yazhe Li Felicia S. C. Lim Alejandro Luebs Oriol Vinyals Thomas C. Walters 81 121 0 14 Oct 2019
Modular Meta-Learning with Shrinkage Yutian Chen A. Friesen Feryal M. P. Behbahani Arnaud Doucet David Budden Matthew W. Hoffman Nando de Freitas KELM OffRL 112 35 0 12 Sep 2019
Human Languages in Source Code: Auto-Translation for Localized Instruction Chris Piech Sami Abu-El-Haija SyDa 34 8 0 10 Sep 2019
Personal VAD: Speaker-Conditioned Voice Activity Detection Shaojin Ding Quan Wang Shuo-yiin Chang Li Wan Ignacio López Moreno 74 75 0 12 Aug 2019
Hierarchical Sequence to Sequence Voice Conversion with Limited Data P. Narayanan Punarjay Chakravarty F. Charette G. Puskorius 53 3 0 15 Jul 2019
Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cross-Language Voice Cloning Yu Zhang Ron J. Weiss Heiga Zen Yonghui Wu Zhiwen Chen RJ Skerry-Ryan Ye Jia Andrew Rosenberg Bhuvana Ramabhadran 76 189 0 09 Jul 2019
A Unified Speaker Adaptation Method for Speech Synthesis using Transcribed and Untranscribed Speech with Backpropagation Hieu-Thi Luong Junichi Yamagishi 67 10 0 18 Jun 2019
MelNet: A Generative Model for Audio in the Frequency Domain Sean Vasquez M. Lewis DiffM 85 132 0 04 Jun 2019
Problem-Agnostic Speech Embeddings for Multi-Speaker Text-to-Speech with SampleRNN David Álvarez Santiago Pascual Antonio Bonafonte 70 12 0 03 Jun 2019
Learning Compositional Neural Programs with Recursive Tree Search and Planning Thomas Pierrot Guillaume Ligner Scott E. Reed Olivier Sigaud Nicolas Perrin Alexandre Laterre David Kas Karim Beguir Nando de Freitas 176 41 0 30 May 2019
Non-Autoregressive Neural Text-to-Speech Kainan Peng Ming-Yu Liu Z. Song Kexin Zhao 101 40 0 21 May 2019
Almost Unsupervised Text to Speech and Automatic Speech Recognition Yi Ren Xu Tan Tao Qin Sheng Zhao Zhou Zhao Tie-Yan Liu 95 102 0 13 May 2019
Meta-learning of Sequential Strategies Pedro A. Ortega Jane X. Wang Mark Rowland Tim Genewein Z. Kurth-Nelson ... Yee Whye Teh H. V. Hasselt Nando de Freitas M. Botvinick Shane Legg OffRL 121 101 0 08 May 2019
High quality, lightweight and adaptable TTS using LPCNet Zvi Kons Slava Shechtman A. Sorin Carmel Rabinovitz R. Hoory 67 54 0 02 May 2019
TTS Skins: Speaker Conversion via ASR Adam Polyak Lior Wolf Yaniv Taigman 69 28 0 18 Apr 2019
Unsupervised Singing Voice Conversion Eliya Nachmani Lior Wolf 73 56 0 13 Apr 2019
Direct speech-to-speech translation with a sequence-to-sequence model Ye Jia Ron J. Weiss Fadi Biadsy Wolfgang Macherey Melvin Johnson Zhiwen Chen Yonghui Wu 101 230 0 12 Apr 2019
Self-supervised speaker embeddings Themos Stafylakis Johan Rohdin Oldrich Plchot Petr Mizera L. Burget SSL 50 48 0 06 Apr 2019
LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech Heiga Zen Viet Dang R. Clark Yu Zhang Ron J. Weiss Ye Jia Zhiwen Chen Yonghui Wu 160 959 0 05 Apr 2019
In Other News: A Bi-style Text-to-speech Model for Synthesizing Newscaster Voice with Limited Data N. Prateek Mateusz Lajszczak Roberto Barra-Chicote Thomas Drugman Jaime Lorenzo-Trueba Thomas Merritt S. Ronanki Trevor Wood 74 30 0 04 Apr 2019
Training Multi-Speaker Neural Text-to-Speech Systems using Speaker-Imbalanced Speech Corpora Hieu-Thi Luong Xin Wang Junichi Yamagishi Nobuyuki Nishizawa 77 23 0 01 Apr 2019
Data Efficient Voice Cloning for Neural Singing Synthesis Merlijn Blaauw J. Bonada R. Daido 132 33 0 19 Feb 2019
Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis Ye Jia Yu Zhang Ron J. Weiss Quan Wang Jonathan Shen ... Zhiwen Chen Patrick Nguyen Ruoming Pang Ignacio López Moreno Yonghui Wu 270 838 0 12 Jun 2018