StarGAN-VC: Non-parallel many-to-many voice conversion with star generative adversarial networks

6 June 2018

Papers citing "StarGAN-VC: Non-parallel many-to-many voice conversion with star generative adversarial networks"

50 / 55 papers shown

Title
Generative Adversarial Network based Voice Conversion: Techniques, Challenges, and Recent Advancements Sandipan Dhar N. D. Jana Swagatam Das 48 0 0 27 Apr 2025
Less is More for Synthetic Speech Detection in the Wild Ashi Garg Zexin Cai Henry Li Xinyuan Leibny Paola García-Perera Kevin Duh Sanjeev Khudanpur Matthew Wiesner Nicholas Andrews 74 0 0 17 Feb 2025
Outlier Detection Using Generative Models with Theoretical Performance Guarantees Jirong Yi A. D. Le Tianming Wang Xiaodong Wu Weiyu Xu 27 3 0 16 Oct 2023
Improving Voice Conversion for Dissimilar Speakers Using Perceptual Losses Suhita Ghosh Yamini Sinha Ingo Siegert Sebastian Stober 11 1 0 15 Sep 2023
Learn to Sing by Listening: Building Controllable Virtual Singer by Unsupervised Learning from Voice Recordings Wei Xue Yiwen Wang Qi-fei Liu Yi-Ting Guo 34 1 0 09 May 2023
AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment Ruiqi Li Rongjie Huang Lichao Zhang Jinglin Liu Zhou Zhao 33 4 0 08 May 2023
TriAAN-VC: Triple Adaptive Attention Normalization for Any-to-Any Voice Conversion Hyun Joon Park Seok Woo Yang Jin Sob Kim Wooseok Shin S. W. Han 25 17 0 16 Mar 2023
Speaking Style Conversion in the Waveform Domain Using Discrete Self-Supervised Units Gallil Maimon Yossi Adi 29 13 0 19 Dec 2022
SpecRNet: Towards Faster and More Accessible Audio DeepFake Detection Piotr Kawa Marcin Plata P. Syga 34 14 0 12 Oct 2022
An Overview of Affective Speech Synthesis and Conversion in the Deep Learning Era Andreas Triantafyllopoulos Björn W. Schuller Gokcce .Iymen M. Sezgin Xiangheng He ... Shuo Liu Silvan Mertes Elisabeth André Ruibo Fu Jianhua Tao 20 53 0 06 Oct 2022
ControlVC: Zero-Shot Voice Conversion with Time-Varying Controls on Pitch and Speed Mei-Shuo Chen Z. Duan 24 10 0 23 Sep 2022
Learning Noise-independent Speech Representation for High-quality Voice Conversion for Noisy Target Speakers Liumeng Xue Shan Yang Na Hu Dan Su Linfu Xie 21 2 0 02 Jul 2022
Attack Agnostic Dataset: Towards Generalization and Stabilization of Audio DeepFake Detection Piotr Kawa Marcin Plata P. Syga AAML 41 23 0 27 Jun 2022
End-to-End Voice Conversion with Information Perturbation Qicong Xie Shan Yang Yinjiao Lei Linfu Xie Dan Su 20 7 0 15 Jun 2022
Speak Like a Dog: Human to Non-human creature Voice Conversion Kohei Suzuki Shoki Sakamoto T. Taniguchi Hirokazu Kameoka 22 2 0 09 Jun 2022
ContentVec: An Improved Self-Supervised Speech Representation by Disentangling Speakers Kaizhi Qian Yang Zhang Heting Gao Junrui Ni Cheng-I Jeff Lai David D. Cox M. Hasegawa-Johnson Shiyu Chang DRL 30 110 0 20 Apr 2022
Time Domain Adversarial Voice Conversion for ADD 2022 Cheng Wen Tingwei Guo Xi Tan Rui Yan Shuran Zhou Chuandong Xie Wei Zou Xiangang Li 16 4 0 19 Apr 2022
Noise-robust Speech Recognition with 10 Minutes Unparalleled In-domain Data Chen Chen Nana Hou Yuchen Hu Shashank Shirol Chng Eng Siong NoLa 11 43 0 29 Mar 2022
The HCCL-DKU system for fake audio generation task of the 2022 ICASSP ADD Challenge Ziyi Chen Hua Hua Yuxiang Zhang Ming Li Pengyuan Zhang 27 0 0 29 Jan 2022
Noise-robust voice conversion with domain adversarial training Hongqiang Du Lei Xie Haizhou Li 17 11 0 26 Jan 2022
Trusted Media Challenge Dataset and User Study Weiling Chen Sheng Lun Benjamin Chua Stefan Winkler See-Kiong Ng 27 8 0 13 Jan 2022
Towards Relatable Explainable AI with the Perceptual Process Wencan Zhang Brian Y. Lim AAML XAI 25 62 0 28 Dec 2021
VocBench: A Neural Vocoder Benchmark for Speech Synthesis Ehab A. AlBadawy Andrew Gibiansky Qing He Jilong Wu Ming-Ching Chang Siwei Lyu 20 12 0 06 Dec 2021
How Deep Are the Fakes? Focusing on Audio Deepfake: A Survey Zahra Khanjani Gabrielle Watson V. P Janeja 25 25 0 28 Nov 2021
A Comparison of Discrete and Soft Speech Units for Improved Voice Conversion Benjamin van Niekerk M. Carbonneau Julian Zaïdi Matthew Baas Hugo Seuté Herman Kamper DRL 24 111 0 03 Nov 2021
Zero-shot Voice Conversion via Self-supervised Prosody Representation Learning Shijun Wang Dimche Kostadinov Damian Borth 26 10 0 27 Oct 2021
Disentanglement of Emotional Style and Speaker Identity for Expressive Voice Conversion Zongyang Du Berrak Sisman Kun Zhou Haizhou Li 11 24 0 20 Oct 2021
Toward Degradation-Robust Voice Conversion Chien-yu Huang Kai-Wei Chang Hung-yi Lee 27 7 0 14 Oct 2021
Style Equalization: Unsupervised Learning of Controllable Generative Sequence Models Jen-Hao Rick Chang A. Shrivastava H. Koppula Xiaoshuai Zhang Oncel Tuzel DiffM 51 16 0 06 Oct 2021
StarGAN-VC+ASR: StarGAN-based Non-Parallel Voice Conversion Regularized by Automatic Speech Recognition Shoki Sakamoto Akira Taniguchi T. Taniguchi Hirokazu Kameoka BDL 23 5 0 10 Aug 2021
VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised Speech Representation Disentanglement for One-shot Voice Conversion Disong Wang Liqun Deng Y. Yeung Xiao Chen Xunying Liu Helen Meng DRL 16 136 0 18 Jun 2021
Emotional Voice Conversion: Theory, Databases and ESD Kun Zhou Berrak Sisman Rui Liu Haizhou Li 25 168 0 31 May 2021
Review of end-to-end speech synthesis technology based on deep learning Zhaoxi Mu Xinyu Yang Yizhuo Dong AuLLM ALM 26 24 0 20 Apr 2021
StarGAN-based Emotional Voice Conversion for Japanese Phrases Asuka Moritani Ryo Ozaki Shoki Sakamoto Hirokazu Kameoka T. Taniguchi 15 7 0 05 Apr 2021
MaskCycleGAN-VC: Learning Non-parallel Voice Conversion with Filling in Frames Takuhiro Kaneko Hirokazu Kameoka Kou Tanaka Nobukatsu Hojo 33 57 0 25 Feb 2021
Semi-supervised Learning for Singing Synthesis Timbre J. Bonada Merlijn Blaauw 19 4 0 05 Nov 2020
VAW-GAN for Disentanglement and Recomposition of Emotional Elements in Speech Kun Zhou Berrak Sisman Haizhou Li DRL 21 40 0 03 Nov 2020
AGAIN-VC: A One-shot Voice Conversion using Activation Guidance and Adaptive Instance Normalization Yen-Hao Chen Da-Yi Wu Tsung-Han Wu Hung-yi Lee 28 107 0 31 Oct 2020
GAZEV: GAN-Based Zero-Shot Voice Conversion over Non-parallel Speech Corpus Zining Zhang Bingsheng He Zhenjie Zhang 8 19 0 24 Oct 2020
CycleGAN-VC3: Examining and Improving CycleGAN-VCs for Mel-spectrogram Conversion Takuhiro Kaneko Hirokazu Kameoka Kou Tanaka Nobukatsu Hojo 23 78 0 22 Oct 2020
Silent Speech Interfaces for Speech Restoration: A Review J. A. González-López Alejandro Gomez-Alanis Juan M. Martín-Donas J. L. Pérez-Córdoba A. Gómez 32 83 0 04 Sep 2020
An Overview of Voice Conversion and its Challenges: From Statistical Modeling to Deep Learning Berrak Sisman Junichi Yamagishi Simon King Haizhou Li BDL 32 317 0 09 Aug 2020
Adversarial representation learning for private speech generation David Ericsson Adam Östberg Edvin Listo Zec John Martinsson Olof Mogren 27 16 0 16 Jun 2020
HiFi-GAN: High-Fidelity Denoising and Dereverberation Based on Speech Deep Features in Adversarial Networks Jiaqi Su Zeyu Jin Adam Finkelstein 23 136 0 10 Jun 2020
Contrastive Predictive Coding Supported Factorized Variational Autoencoder for Unsupervised Learning of Disentangled Speech Representations Janek Ebbers Michael Kuhlmann Tobias Cord-Landwehr Reinhold Haeb-Umbach DRL CoGe SSL 23 4 0 26 May 2020
Many-to-Many Voice Transformer Network Hirokazu Kameoka Wen-Chin Huang Kou Tanaka Takuhiro Kaneko Nobukatsu Hojo T. Toda ViT 22 30 0 18 May 2020
F0-consistent many-to-many non-parallel voice conversion via conditional autoencoder Kaizhi Qian Zeyu Jin M. Hasegawa-Johnson G. J. Mysore 21 107 0 15 Apr 2020
Many-to-Many Voice Conversion using Conditional Cycle-Consistent Adversarial Networks Shindong Lee Bonggu Ko Keonnyeong Lee In-Chul Yoo Dongsuk Yook GAN 27 33 0 15 Feb 2020
Unsupervised Representation Disentanglement using Cross Domain Features and Adversarial Learning in Variational Autoencoder based Voice Conversion Wen-Chin Huang Hao Luo Hsin-Te Hwang Chen-Chou Lo Yu-Huai Peng Yu Tsao Hsin-Min Wang DRL 17 42 0 22 Jan 2020
DNN-based cross-lingual voice conversion using Bottleneck Features M. K. Reddy K. S. Rao 21 4 0 09 Sep 2019