Discrete Unit based Masking for Improving Disentanglement in Voice Conversion

17 September 2024

Papers citing "Discrete Unit based Masking for Improving Disentanglement in Voice Conversion"

16 / 16 papers shown

Title
SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross Attention Junjie Li Yiwei Guo Xie Chen Kai Yu 89 18 0 14 Dec 2023
TriAAN-VC: Triple Adaptive Attention Normalization for Any-to-Any Voice Conversion Hyun Joon Park Seok Woo Yang Jin Sob Kim Wooseok Shin S. W. Han 66 20 0 16 Mar 2023
YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone Edresson Casanova Julian Weber C. Shulby Arnaldo Cândido Júnior Eren Golge M. Ponti 234 415 0 04 Dec 2021
A Comparison of Discrete and Soft Speech Units for Improved Voice Conversion Benjamin van Niekerk M. Carbonneau Julian Zaïdi Matthew Baas Hugo Seuté Herman Kamper DRL 90 123 0 03 Nov 2021
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing Sanyuan Chen Chengyi Wang Zhengyang Chen Yu-Huan Wu Shujie Liu ... Yao Qian Jian Wu Micheal Zeng Xiangzhan Yu Furu Wei SSL 267 1,905 0 26 Oct 2021
Disentanglement of Emotional Style and Speaker Identity for Expressive Voice Conversion Zongyang Du Berrak Sisman Kun Zhou Haizhou Li 48 24 0 20 Oct 2021
HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units Wei-Ning Hsu Benjamin Bolte Yao-Hung Hubert Tsai Kushal Lakhotia Ruslan Salakhutdinov Abdel-rahman Mohamed SSL 184 3,003 0 14 Jun 2021
Nonparallel Voice Conversion with Augmented Classifier Star Generative Adversarial Networks Hirokazu Kameoka Takuhiro Kaneko Kou Tanaka Nobukatsu Hojo 49 20 0 27 Aug 2020
An Overview of Voice Conversion and its Challenges: From Statistical Modeling to Deep Learning Berrak Sisman Junichi Yamagishi Simon King Haizhou Li BDL 113 326 0 09 Aug 2020
VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net architecture Da-Yi Wu Yen-Hao Chen Hung-yi Lee 70 101 0 07 Jun 2020
Vector-quantized neural networks for acoustic unit discovery in the ZeroSpeech 2020 challenge Benjamin van Niekerk Leanne Nortje Herman Kamper 89 117 0 19 May 2020
Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram Ryuichi Yamamoto Eunwoo Song Jae-Min Kim 62 820 0 25 Oct 2019
Probing the Information Encoded in X-vectors Desh Raj David Snyder Daniel Povey Sanjeev Khudanpur 94 87 0 13 Sep 2019
AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss Kaizhi Qian Yang Zhang Shiyu Chang Xuesong Yang M. Hasegawa-Johnson 87 468 0 14 May 2019
Generalized End-to-End Loss for Speaker Verification Li Wan Quan Wang Alan Papir Ignacio López Moreno VLM 84 933 0 28 Oct 2017
Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization Xun Huang Serge J. Belongie OOD 181 4,378 0 20 Mar 2017