AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss

14 May 2019

Kaizhi Qian

Papers citing "AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss"

50 / 105 papers shown

Title
RoVo: Robust Voice Protection Against Unauthorized Speech Synthesis with Embedding-Level Perturbations Seungmin Kim Sohee Park Donghyun Kim Jisu Lee Daeseon Choi AAML 7 0 0 19 May 2025
Versatile Framework for Song Generation with Prompt-based Control Wenjie Qu Wenxiang Guo Changhao Pan Zehan Zhu Ruiqi Li ... Rongjie Huang Ruiyuan Zhang Zhiqing Hong Ziyue Jiang Zhou Zhao 77 2 0 27 Apr 2025
Generative Adversarial Network based Voice Conversion: Techniques, Challenges, and Recent Advancements Sandipan Dhar N. D. Jana Swagatam Das 50 0 0 27 Apr 2025
Mitigating Timbre Leakage with Universal Semantic Mapping Residual Block for Voice Conversion Na Li Chuke Wang Yu Gu Zhifeng Li 59 0 0 11 Apr 2025
An Exhaustive Evaluation of TTS- and VC-based Data Augmentation for ASR Sewade Ogun Vincent Colotte Emmanuel Vincent 64 0 0 11 Mar 2025
ShiftySpeech: A Large-Scale Synthetic Speech Dataset with Distribution Shifts Ashi Garg Zexin Cai Lin Zhang Leibny Paola García-Perera Kevin Duh Kevin Duh Sanjeev Khudanpur Matthew Wiesner Nicholas Andrews 77 0 0 08 Feb 2025
ZSVC: Zero-shot Style Voice Conversion with Disentangled Latent Diffusion Models and Adversarial Training Xinfa Zhu Lei He Yujia Xiao Xi Wang Xu Tan Sheng Zhao Lei Xie DiffM 40 0 0 08 Jan 2025
LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec Yiwei Guo Zhihan Li Chenpeng Du Hankun Wang Xie Chen Kai Yu 36 1 0 21 Oct 2024
The First VoicePrivacy Attacker Challenge Evaluation Plan N. Tomashenko Xiaoxiao Miao Emmanuel Vincent Junichi Yamagishi 131 2 0 09 Oct 2024
On the Feasibility of Fully AI-automated Vishing Attacks João Figueiredo Afonso Carvalho Daniel Castro Daniel Gonçalves Nuno Santos 27 3 0 20 Sep 2024
Discrete Unit based Masking for Improving Disentanglement in Voice Conversion Philip H. Lee Ismail Rasim Ulgen Berrak Sisman 35 0 0 17 Sep 2024
Landmark-guided Diffusion Model for High-fidelity and Temporally Coherent Talking Head Generation Jintao Tan Xize Cheng Lingyu Xiong Lei Zhu Xiandong Li Wenxiong Kang Kai Gong Minglei Li Yi Cai DiffM 32 2 0 03 Aug 2024
MAIN-VC: Lightweight Speech Representation Disentanglement for One-shot Voice Conversion Pengcheng Li Jianzong Wang Xulong Zhang Yong Zhang Jing Xiao Ning Cheng DRL 48 1 0 02 May 2024
EAD-VC: Enhancing Speech Auto-Disentanglement for Voice Conversion with IFUB Estimator and Joint Text-Guided Consistent Learning Ziqi Liang Jianzong Wang Xulong Zhang Yong Zhang Ning Cheng Jing Xiao 36 1 0 30 Apr 2024
A Large-Scale Evaluation of Speech Foundation Models Shu-Wen Yang Heng-Jui Chang Zili Huang Andy T. Liu Cheng-I Jeff Lai ... Kushal Lakhotia Shang-Wen Li Abdelrahman Mohamed Shinji Watanabe Hung-yi Lee 40 20 0 15 Apr 2024
VoiceShop: A Unified Speech-to-Speech Framework for Identity-Preserving Zero-Shot Voice Editing Philip Anastassiou Zhenyu Tang Kainan Peng Dongya Jia Jiaxin Li Ming Tu Yuping Wang Yuxuan Wang Mingbo Ma 42 4 0 10 Apr 2024
StreamVoice: Streamable Context-Aware Language Modeling for Real-time Zero-Shot Voice Conversion Zhichao Wang Yuan-Jui Chen Xinsheng Wang Lei Xie Yuping Wang 32 6 0 19 Jan 2024
Creating New Voices using Normalizing Flows Piotr Bilinski Thomas Merritt Abdelhamid Ezzerg Kamil Pokora Sebastian Cygert K. Yanagisawa Roberto Barra-Chicote Daniel Korzekwa 26 17 0 22 Dec 2023
Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation Haram Choi Sang-Hoon Lee Seong-Whan Lee DiffM 34 24 0 08 Nov 2023
VaSAB: The variable size adaptive information bottleneck for disentanglement on speech and singing voice F. Bous Axel Roebel 18 0 0 05 Oct 2023
Highly Controllable Diffusion-based Any-to-Any Voice Conversion Model with Frame-level Prosody Feature Kyungguen Byun Sunkuk Moon Erik Visser DiffM 37 1 0 06 Sep 2023
Stylebook: Content-Dependent Speaking Style Modeling for Any-to-Any Voice Conversion using Only Speech Data Hyungseob Lim Kyungguen Byun Sunkuk Moon Erik Visser DiffM 28 2 0 06 Sep 2023
HierVST: Hierarchical Adaptive Zero-shot Voice Style Transfer Sang-Hoon Lee Haram Choi H. Oh Seong-Whan Lee BDL 30 9 0 30 Jul 2023
Voice Conversion With Just Nearest Neighbors Matthew Baas Benjamin van Niekerk Herman Kamper SSL 37 48 0 30 May 2023
Automatic Tuning of Loss Trade-offs without Hyper-parameter Search in End-to-End Zero-Shot Speech Synthesis Seong-Hyun Park Bohyung Kim Tae-Hyun Oh 50 1 0 26 May 2023
DualVC: Dual-mode Voice Conversion using Intra-model Knowledge Distillation and Hybrid Predictive Coding Ziqian Ning Yuepeng Jiang Pengcheng Zhu Jixun Yao Shuai Wang Linfu Xie Mengxiao Bi 34 10 0 21 May 2023
Adversarial Speaker Disentanglement Using Unannotated External Data for Self-supervised Representation Based Voice Conversion Xintao Zhao Shuai Wang Yang Chao Zhiyong Wu Helen Meng 40 3 0 16 May 2023
AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment Ruiqi Li Rongjie Huang Lichao Zhang Jinglin Liu Zhou Zhao 33 4 0 08 May 2023
TriAAN-VC: Triple Adaptive Attention Normalization for Any-to-Any Voice Conversion Hyun Joon Park Seok Woo Yang Jin Sob Kim Wooseok Shin S. W. Han 30 18 0 16 Mar 2023
ACE-VC: Adaptive and Controllable Voice Conversion using Explicitly Disentangled Self-supervised Speech Representations Shehzeen Samarah Hussain Paarth Neekhara Jocelyn Huang Jason Chun Lok Li Boris Ginsburg 13 21 0 16 Feb 2023
StyleTTS-VC: One-Shot Voice Conversion by Knowledge Transfer from Style-Based TTS Models Yinghao Aaron Li Cong Han N. Mesgarani 24 18 0 29 Dec 2022
Speaking Style Conversion in the Waveform Domain Using Discrete Self-Supervised Units Gallil Maimon Yossi Adi 34 13 0 19 Dec 2022
VarietySound: Timbre-Controllable Video to Sound Generation via Unsupervised Information Disentanglement Chenye Cui Yi Ren Jinglin Liu Rongjie Huang Zhou Zhao VGen 38 14 0 19 Nov 2022
Delivering Speaking Style in Low-resource Voice Conversion with Multi-factor Constraints Zhichao Wang Xinsheng Wang Linfu Xie Yuan-Jui Chen Qiao Tian Yuping Wang 30 5 0 16 Nov 2022
A unified one-shot prosody and speaker conversion system with self-supervised discrete speech units Li-Wei Chen Shinji Watanabe Alexander I. Rudnicky 30 6 0 12 Nov 2022
Expressive-VC: Highly Expressive Voice Conversion with Attention Fusion of Bottleneck and Perturbation Features Ziqian Ning Qicong Xie Pengcheng Zhu Zhichao Wang Liumeng Xue Jixun Yao Linfu Xie Mengxiao Bi 32 16 0 09 Nov 2022
Streaming Voice Conversion Via Intermediate Bottleneck Features And Non-streaming Teacher Guidance Yuan-Jui Chen Ming Tu Tang-Chun Li Xin Li Qiuqiang Kong Jiaxin Li Zhichao Wang Qiao Tian Yuping Wang Yuxuan Wang 42 11 0 27 Oct 2022
MetaSpeech: Speech Effects Switch Along with Environment for Metaverse Xulong Zhang Jianzong Wang Ning Cheng Jing Xiao 24 1 0 25 Oct 2022
DisC-VC: Disentangled and F0-Controllable Neural Voice Conversion Chihiro Watanabe Hirokazu Kameoka DRL 37 0 0 20 Oct 2022
Hierarchical Diffusion Models for Singing Voice Neural Vocoder Naoya Takahashi Mayank Kumar Singh Yuki Mitsufuji DiffM 29 16 0 14 Oct 2022
ControlVC: Zero-Shot Voice Conversion with Time-Varying Controls on Pitch and Speed Mei-Shuo Chen Z. Duan 27 10 0 23 Sep 2022
Non-Parallel Voice Conversion for ASR Augmentation Gary Wang Andrew Rosenberg Bhuvana Ramabhadran Fadi Biadsy Yinghui Huang Jesse Emond P. M. Mengibar 26 2 0 15 Sep 2022
DeID-VC: Speaker De-identification via Zero-shot Pseudo Voice Conversion Ruibin Yuan Yuxuan Wu Jacob Li Jaxter Kim 34 5 0 09 Sep 2022
Learning Noise-independent Speech Representation for High-quality Voice Conversion for Noisy Target Speakers Liumeng Xue Shan Yang Na Hu Dan Su Linfu Xie 34 2 0 02 Jul 2022
iEmoTTS: Toward Robust Cross-Speaker Emotion Transfer and Control for Speech Synthesis based on Disentanglement between Prosody and Timbre Guangyan Zhang Ying Qin Wentao Zhang Jialun Wu Mei Li Yu Gai Feijun Jiang Tan Lee 50 26 0 29 Jun 2022
RetrieverTTS: Modeling Decomposed Factors for Text-Based Speech Insertion Dacheng Yin Chuanxin Tang Yanqing Liu Xiaoqiang Wang Zhiyuan Zhao Yucheng Zhao Zhiwei Xiong Sheng Zhao Chong Luo 26 12 0 28 Jun 2022
Data Augmentation for Dementia Detection in Spoken Language Anna Hlédiková Dominika Woszczyk Alican Acman Soteris Demetriou Björn Schuller 36 12 0 26 Jun 2022
End-to-End Voice Conversion with Information Perturbation Qicong Xie Shan Yang Yinjiao Lei Linfu Xie Dan Su 43 7 0 15 Jun 2022
Speak Like a Dog: Human to Non-human creature Voice Conversion Kohei Suzuki Shoki Sakamoto T. Taniguchi Hirokazu Kameoka 27 2 0 09 Jun 2022
Zero-Shot Voice Conditioning for Denoising Diffusion TTS Models Alon Levkovitch Eliya Nachmani Lior Wolf DiffM 21 29 0 05 Jun 2022