Content-Dependent Fine-Grained Speaker Embedding for Zero-Shot Speaker
Adaptation in Text-to-Speech Synthesis

Content-Dependent Fine-Grained Speaker Embedding for Zero-Shot Speaker Adaptation in Text-to-Speech Synthesis

3 April 2022

Yixuan Zhou

Xiang Li

Zhiyong Wu

Papers citing "Content-Dependent Fine-Grained Speaker Embedding for Zero-Shot Speaker Adaptation in Text-to-Speech Synthesis"

16 / 16 papers shown

Title
Voice Cloning: Comprehensive Survey Hussam Azzuni Abdulmotaleb El Saddik VLM 50 0 0 01 May 2025
Prosody-Enhanced Acoustic Pre-training and Acoustic-Disentangled Prosody Adapting for Movie Dubbing Zhedong Zhang Liang-Sheng Li C. Yan Chunshan Liu Anton Van Den Hengel Yuankai Qi 91 2 0 15 Mar 2025
Clip-TTS: Contrastive Text-content and Mel-spectrogram, A High-Quality Text-to-Speech Method based on Contextual Semantic Understanding Tianyun Liu CLIP VLM 68 0 0 26 Feb 2025
EmoDubber: Towards High Quality and Emotion Controllable Movie Dubbing Gaoxiang Cong Jiadong Pan Liang-Sheng Li Yuankai Qi Yuxin Peng Anton Van Den Hengel Jian Yang Qingming Huang 99 6 0 12 Dec 2024
CoDiff-VC: A Codec-Assisted Diffusion Model for Zero-shot Voice Conversion Yuke Li Xinfa Zhu Hanzhao Li Jixun Yao WenJie Tian XiPeng Yang Yunlin Chen Zhifei Li Lei Xie DiffM 70 0 0 28 Nov 2024
The NPU-HWC System for the ISCSLP 2024 Inspirational and Convincing Audio Generation Challenge Dake Guo Jixun Yao Xinfa Zhu Kangxiang Xia Zhao Guo Ziyu Zhang Yuran Wang Jie Liu Lei Xie 39 1 0 31 Oct 2024
Overview of Speaker Modeling and Its Applications: From the Lens of Deep Speaker Representation Learning Shuai Wang Zheng-Shou Chen Kong Aik Lee Yan-min Qian Haizhou Li 47 4 0 21 Jul 2024
ASRRL-TTS: Agile Speaker Representation Reinforcement Learning for Text-to-Speech Speaker Adaptation Ruibo Fu Xin Qi Zhengqi Wen Jianhua Tao Tao Wang ... Xiaopeng Wang Shuchen Shi Yukun Liu Xuefei Liu Shuai Zhang 62 0 0 07 Jul 2024
Intelli-Z: Toward Intelligible Zero-Shot TTS Sunghee Jung Won Jang Jaesam Yoon Bongwan Kim 38 0 0 25 Jan 2024
ELF: Encoding Speaker-Specific Latent Speech Feature for Speech Synthesis Jungil Kong Junmo Lee Jeongmin Kim Beomjeong Kim Jihoon Park Dohee Kong Changheon Lee Sangjin Kim 25 1 0 20 Nov 2023
U-Style: Cascading U-nets with Multi-level Speaker and Style Modeling for Zero-Shot Voice Cloning Tao Li Zhichao Wang Xinfa Zhu Jian Cong Qiao Tian Yuping Wang Lei Xie DiffM 37 3 0 06 Oct 2023
Improving Language Model-Based Zero-Shot Text-to-Speech Synthesis with Multi-Scale Acoustic Prompts Shunwei Lei Yixuan Zhou Liyang Chen Dan Luo Zhiyong Wu ... Shiyin Kang Tao Jiang Yahui Zhou Yuxing Han Helen M. Meng VLM 46 2 0 21 Sep 2023
Stylebook: Content-Dependent Speaking Style Modeling for Any-to-Any Voice Conversion using Only Speech Data Hyungseob Lim Kyungguen Byun Sunkuk Moon Erik Visser DiffM 28 2 0 06 Sep 2023
Mega-TTS 2: Boosting Prompting Mechanisms for Zero-Shot Speech Synthesis Ziyue Jiang Jinglin Liu Yi Ren Jinzheng He Zhe Ye ... Pengfei Wei Chunfeng Wang Xiang Yin Zejun Ma Zhou Zhao 46 45 0 14 Jul 2023
ComedicSpeech: Text To Speech For Stand-up Comedies in Low-Resource Scenarios Yuyue Wang Huanhou Xiao Yihan Wu Ruihua Song 34 0 0 20 May 2023
Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis Ye Jia Yu Zhang Ron J. Weiss Quan Wang Jonathan Shen ... Zhehuai Chen Patrick Nguyen Ruoming Pang Ignacio López Moreno Yonghui Wu 207 821 0 12 Jun 2018