AdaSpeech: Adaptive Text to Speech for Custom Voice

1 March 2021

Xu Tan

Papers citing "AdaSpeech: Adaptive Text to Speech for Custom Voice"

50 / 121 papers shown

Title
UnitSpeech: Speaker-adaptive Speech Synthesis with Untranscribed Data Heeseung Kim Sungwon Kim Ji-Ran Yeom Sung-Wan Yoon DiffM 21 21 0 28 Jun 2023
GenerTTS: Pronunciation Disentanglement for Timbre and Style Generalization in Cross-Lingual Text-to-Speech Yahuan Cong Haoyu Zhang Hao-Ping Lin Shichao Liu Chunfeng Wang Yi Ren Xiang Yin Zejun Ma 27 1 0 27 Jun 2023
Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias Ziyue Jiang Yi Ren Zhe Ye Jinglin Liu Chen Zhang ... Rongjie Huang Chunfeng Wang Xiang Yin Zejun Ma Zhou Zhao DiffM 32 73 0 06 Jun 2023
Rhythm-controllable Attention with High Robustness for Long Sentence Speech Synthesis Dengfeng Ke Yayue Deng Yukang Jia Jinlong Xue Qi Luo Ya Li Jianqing Sun Jiaen Liang Binghuai Lin 24 0 0 05 Jun 2023
MuseCoco: Generating Symbolic Music from Text Peiling Lu Xin Xu C. Kang Botao Yu Chengyi Xing Xuejiao Tan Jiang Bian 26 40 0 31 May 2023
ADAPTERMIX: Exploring the Efficacy of Mixture of Adapters for Low-Resource TTS Adaptation Ambuj Mehrish Abhinav Ramesh Kashyap Yingting Li Navonil Majumder Soujanya Poria 27 7 0 29 May 2023
ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech Synthesis with Diffusion and Style-based Models Minki Kang Wooseok Han Sung Ju Hwang Eunho Yang DiffM 23 18 0 23 May 2023
ComedicSpeech: Text To Speech For Stand-up Comedies in Low-Resource Scenarios Yuyue Wang Huanhou Xiao Yihan Wu Ruihua Song 21 0 0 20 May 2023
EE-TTS: Emphatic Expressive TTS with Linguistic Information Yifan Zhong Chen Zhang Xule Liu Chenxi Sun Weishan Deng Haifeng Hu Zhongqian Sun 21 3 0 20 May 2023
Parameter-Efficient Learning for Text-to-Speech Accent Adaptation Lijie Yang Chao-Han Huck Yang Jen-Tzung Chien 22 11 0 18 May 2023
Back Translation for Speech-to-text Translation Without Transcripts Qingkai Fang Yang Feng 38 13 0 15 May 2023
Hi Sheldon! Creating Deep Personalized Characters from TV Shows Meidai Xuanyuan Yuwang Wang Honglei Guo Xiao Ma Yuchen Guo Tao Yu Qionghai Dai VGen 25 0 0 09 Apr 2023
Personalized Lightweight Text-to-Speech: Voice Cloning with Adaptive Structured Pruning Sung-Feng Huang Chia-Ping Chen Zhi-Sheng Chen Yu-Pao Tsai Hung-yi Lee 33 3 0 21 Mar 2023
A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT Yihan Cao Siyu Li Yixin Liu Zhiling Yan Yutong Dai Philip S. Yu Lichao Sun 35 508 0 07 Mar 2023
An investigation into the adaptability of a diffusion-based TTS model Haolin Chen Philip N. Garner DiffM 39 1 0 03 Mar 2023
Imaginary Voice: Face-styled Diffusion Model for Text-to-Speech Jiyoung Lee Joon Son Chung Soo-Whan Chung DiffM 38 27 0 27 Feb 2023
Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models Rongjie Huang Jia-Bin Huang Dongchao Yang Yi Ren Luping Liu Mingze Li Zhenhui Ye Jinglin Liu Xiaoyue Yin Zhou Zhao DiffM 151 317 0 30 Jan 2023
Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers Chengyi Wang Sanyuan Chen Yu-Huan Wu Zi-Hua Zhang Long Zhou ... Huaming Wang Jinyu Li Lei He Sheng Zhao Furu Wei 48 644 0 05 Jan 2023
UniSyn: An End-to-End Unified Model for Text-to-Speech and Singing Voice Synthesis Yinjiao Lei Shan Yang Xinsheng Wang Qicong Xie Jixun Yao Linfu Xie Dan Su DiffM 21 8 0 03 Dec 2022
SNAC: Speaker-normalized affine coupling layer in flow-based architecture for zero-shot multi-speaker text-to-speech Byoung Jin Choi Myeonghun Jeong Joun Yeop Lee N. Kim 23 13 0 30 Nov 2022
NANSY++: Unified Voice Synthesis with Neural Analysis and Synthesis Hyeong-Seok Choi Jinhyeok Yang Juheon Lee Hyeongju Kim 20 46 0 17 Nov 2022
Grad-StyleSpeech: Any-speaker Adaptive Text-to-Speech Synthesis with Diffusion Models Minki Kang Dong Min Sung Ju Hwang DiffM 25 48 0 17 Nov 2022
MaskedSpeech: Context-aware Speech Synthesis with Masking Strategy Ya-Jie Zhang Wei Song Ya Yue Zhengchen Zhang Youzheng Wu Xiaodong He 34 7 0 11 Nov 2022
Expressive-VC: Highly Expressive Voice Conversion with Attention Fusion of Bottleneck and Perturbation Features Ziqian Ning Qicong Xie Pengcheng Zhu Zhichao Wang Liumeng Xue Jixun Yao Linfu Xie Mengxiao Bi 27 16 0 09 Nov 2022
Adapter-Based Extension of Multi-Speaker Text-to-Speech Model for New Speakers Cheng-Ping Hsieh Subhankar Ghosh Boris Ginsburg 41 18 0 01 Nov 2022
Towards zero-shot Text-based voice editing using acoustic context conditioning, utterance embeddings, and reference encoders Jason Fong Yun Wang Prabhav Agrawal Vimal Manohar Jilong Wu Thilo Kohler Qing He 15 0 0 28 Oct 2022
Residual Adapters for Few-Shot Text-to-Speech Speaker Adaptation Nobuyuki Morioka Heiga Zen Nanxin Chen Yu Zhang Yifan Ding 37 16 0 28 Oct 2022
Mid-attribute speaker generation using optimal-transport-based interpolation of Gaussian mixture models Aya Watanabe Shinnosuke Takamichi Yuki Saito Detai Xin Hiroshi Saruwatari 35 3 0 18 Oct 2022
Pathway to Future Symbiotic Creativity Yi-Ting Guo Qi-fei Liu Jie Chen Wei Xue Jie Fu ... Fernando Rosas Jeffrey Shaw Xing Wu Jiji Zhang Jianliang Xu 31 0 0 18 Aug 2022
ProDiff: Progressive Fast Diffusion Model For High-Quality Text-to-Speech Rongjie Huang Zhou Zhao Huadai Liu Jinglin Liu Chenye Cui Yi Ren DiffM 44 195 0 13 Jul 2022
Glow-WaveGAN 2: High-quality Zero-shot Text-to-speech Synthesis and Any-to-any Voice Conversion Yinjiao Lei Shan Yang Jian Cong Linfu Xie Dan Su DiffM 52 12 0 05 Jul 2022
RetrieverTTS: Modeling Decomposed Factors for Text-Based Speech Insertion Dacheng Yin Chuanxin Tang Yanqing Liu Xiaoqiang Wang Zhiyuan Zhao Yucheng Zhao Zhiwei Xiong Sheng Zhao Chong Luo 26 12 0 28 Jun 2022
End-to-End Voice Conversion with Information Perturbation Qicong Xie Shan Yang Yinjiao Lei Linfu Xie Dan Su 29 7 0 15 Jun 2022
Multimodal Learning with Transformers: A Survey P. Xu Xiatian Zhu David A. Clifton ViT 72 528 0 13 Jun 2022
AdaVITS: Tiny VITS for Low Computing Resource Speaker Adaptation Kun Song Heyang Xue Xinsheng Wang Jian Cong Yongmao Zhang Linfu Xie Bing Yang Xiong Zhang Dan Su 19 5 0 01 Jun 2022
StyleTTS: A Style-Based Generative Model for Natural and Diverse Text-to-Speech Synthesis Yinghao Aaron Li Cong Han N. Mesgarani 38 38 0 30 May 2022
Guided-TTS 2: A Diffusion Model for High-quality Adaptive Text-to-Speech with Untranscribed Data Sungwon Kim Heeseung Kim Sung-Hoon Yoon DiffM 204 52 0 30 May 2022
GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech Rongjie Huang Yi Ren Jinglin Liu Chenye Cui Zhou Zhao OODD VLM 115 34 0 15 May 2022
NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality Xu Tan Jiawei Chen Haohe Liu Jian Cong Chen Zhang ... Lei He Frank Soong Tao Qin Sheng Zhao Tie-Yan Liu 44 213 0 09 May 2022
Time Domain Adversarial Voice Conversion for ADD 2022 Cheng Wen Tingwei Guo Xi Tan Rui Yan Shuran Zhou Chuandong Xie Wei Zou Xiangang Li 18 4 0 19 Apr 2022
Content-Dependent Fine-Grained Speaker Embedding for Zero-Shot Speaker Adaptation in Text-to-Speech Synthesis Yixuan Zhou Changhe Song Xiang Li Lu Zhang Zhiyong Wu Yanyao Bian Dan Su Helen Meng 26 22 0 03 Apr 2022
AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios Yihan Wu Xu Tan Bohan Li Lei He Sheng Zhao Ruihua Song Tao Qin Tie-Yan Liu VLM DiffM 14 67 0 01 Apr 2022
Data-augmented cross-lingual synthesis in a teacher-student framework M. D. Korte Jaebok Kim A. Kunikoshi Adaeze Adigwe E. Klabbers 21 0 0 31 Mar 2022
AdaVocoder: Adaptive Vocoder for Custom Voice Xin Yuan Yongbin Feng Mingming Ye Cheng Tuo Minghang Zhang 17 3 0 18 Mar 2022
Speaker Adaption with Intuitive Prosodic Features for Statistical Parametric Speech Synthesis Pengyu Cheng Zhenhua Ling 28 3 0 02 Mar 2022
nnSpeech: Speaker-Guided Conditional Variational Autoencoder for Zero-shot Multi-speaker Text-to-Speech Bo Zhao Xulong Zhang Jianzong Wang Ning Cheng Jing Xiao DiffM 18 22 0 22 Feb 2022
Voice Filter: Few-shot text-to-speech speaker adaptation using voice conversion as a post-processing module Adam Gabry's Goeric Huybrechts M. Ribeiro C. Chien Julian Roth Giulia Comini Roberto Barra-Chicote Bartek Perz Jaime Lorenzo-Trueba 36 21 0 16 Feb 2022
The MSXF TTS System for ICASSP 2022 ADD Challenge Chunyong Yang Pengfei Liu Yanli Chen Hongbin Wang Min Liu 13 0 0 27 Jan 2022
MsEmoTTS: Multi-scale emotion transfer, prediction, and control for emotional speech synthesis Yinjiao Lei Shan Yang Xinsheng Wang Lei Xie 22 73 0 17 Jan 2022
MR-SVS: Singing Voice Synthesis with Multi-Reference Encoder Shoutong Wang Jinglin Liu Yi Ren Zhen Wang Changliang Xu Zhou Zhao 25 7 0 11 Jan 2022