Voice Transformer Network: Sequence-to-Sequence Voice Conversion Using Transformer with Text-to-Speech Pretraining

14 December 2019

Papers citing "Voice Transformer Network: Sequence-to-Sequence Voice Conversion Using Transformer with Text-to-Speech Pretraining"

25 / 25 papers shown

Title
Generative Adversarial Network based Voice Conversion: Techniques, Challenges, and Recent Advancements Sandipan Dhar N. D. Jana Swagatam Das 50 0 0 27 Apr 2025
MacST: Multi-Accent Speech Synthesis via Text Transliteration for Accent Conversion Sho Inoue Shuai Wang Wanxing Wang Pengcheng Zhu Mengxiao Bi Haizhou Li 39 2 0 14 Sep 2024
Parallel and Limited Data Voice Conversion Using Stochastic Variational Deep Kernel Learning Mohamadreza Jafaryani H. Sheikhzadeh V. Pourahmadi 19 4 0 08 Sep 2023
The Singing Voice Conversion Challenge 2023 Wen-Chin Huang Lester Phillip Violeta Songxiang Liu Jiatong Shi T. Toda 29 48 0 26 Jun 2023
Transformers in Speech Processing: A Survey S. Latif Aun Zaidi Heriberto Cuayáhuitl Fahad Shamshad Moazzam Shoukat Junaid Qadir 46 47 0 21 Mar 2023
A Text-guided Protein Design Framework Shengchao Liu Yanjing Li Zhuoxinran Li A. Gitter Yutao Zhu ... Arvind Ramanathan Chaowei Xiao Jian Tang Hongyu Guo Anima Anandkumar 70 61 0 09 Feb 2023
Intermediate Fine-Tuning Using Imperfect Synthetic Speech for Improving Electrolaryngeal Speech Recognition Lester Phillip Violeta D. Ma Wen-Chin Huang T. Toda 39 7 0 02 Nov 2022
Two-stage training method for Japanese electrolaryngeal speech enhancement based on sequence-to-sequence voice conversion D. Ma Lester Phillip Violeta Kazuhiro Kobayashi T. Toda 29 6 0 19 Oct 2022
Speech Synthesis with Mixed Emotions Kun Zhou Berrak Sisman R. Rana B.W.Schuller Haizhou Li 27 44 0 11 Aug 2022
i-Code: An Integrative and Composable Multimodal Learning Framework Ziyi Yang Yuwei Fang Chenguang Zhu Reid Pryzant DongDong Chen ... Bin Xiao Yuanxun Lu Takuya Yoshioka Michael Zeng Xuedong Huang 40 45 0 03 May 2022
AC-VC: Non-parallel Low Latency Phonetic Posteriorgrams Based Voice Conversion Damien Ronssin Milos Cernak 20 10 0 12 Nov 2021
Towards Identity Preserving Normal to Dysarthric Voice Conversion Wen-Chin Huang B. Halpern Lester Phillip Violeta O. Scharenborg T. Toda 44 21 0 15 Oct 2021
ESPnet2-TTS: Extending the Edge of TTS Research Tomoki Hayashi Ryuichi Yamamoto Takenori Yoshimura Peter Wu Jiatong Shi Takaaki Saeki Yooncheol Ju Yusuke Yasuda Shinnosuke Takamichi Shinji Watanabe VLM 52 60 0 15 Oct 2021
Time Alignment using Lip Images for Frame-based Electrolaryngeal Voice Conversion Yi-Syuan Liou Wen-Chin Huang Ming-Chi Yen S. Tsai Yu-Huai Peng T. Toda Yu Tsao Hsin-Min Wang 22 1 0 08 Sep 2021
StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for Natural-Sounding Voice Conversion Yinghao Aaron Li A. Zare N. Mesgarani 35 99 0 21 Jul 2021
Emotional Voice Conversion: Theory, Databases and ESD Kun Zhou Berrak Sisman Rui Liu Haizhou Li 33 168 0 31 May 2021
Any-to-One Sequence-to-Sequence Voice Conversion using Self-Supervised Discrete Speech Representations Wen-Chin Huang Yi-Chiao Wu Tomoki Hayashi T. Toda BDL 54 37 0 23 Oct 2020
The Sequence-to-Sequence Baseline for the Voice Conversion Challenge 2020: Cascading ASR and TTS Wen-Chin Huang Tomoki Hayashi Shinji Watanabe T. Toda DRL 15 39 0 06 Oct 2020
Voice Conversion Challenge 2020: Intra-lingual semi-parallel and cross-lingual voice conversion Yi Zhao Wen-Chin Huang Xiaohai Tian Junichi Yamagishi Rohan Kumar Das Tomi Kinnunen Zhenhua Ling T. Toda 27 206 0 28 Aug 2020
An Overview of Voice Conversion and its Challenges: From Statistical Modeling to Deep Learning Berrak Sisman Junichi Yamagishi Simon King Haizhou Li BDL 41 318 0 09 Aug 2020
Pretraining Techniques for Sequence-to-Sequence Voice Conversion Wen-Chin Huang Tomoki Hayashi Yi-Chiao Wu Hirokazu Kameoka T. Toda 27 38 0 07 Aug 2020
Many-to-Many Voice Transformer Network Hirokazu Kameoka Wen-Chin Huang Kou Tanaka Takuhiro Kaneko Nobukatsu Hojo T. Toda ViT 30 30 0 18 May 2020
Vocoder-free End-to-End Voice Conversion with Transformer Network June-Woo Kim H. Jung Minho Lee 30 4 0 05 Feb 2020
Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis Ye Jia Yu Zhang Ron J. Weiss Quan Wang Jonathan Shen ... Zhehuai Chen Patrick Nguyen Ruoming Pang Ignacio López Moreno Yonghui Wu 207 821 0 12 Jun 2018
Effective Approaches to Attention-based Neural Machine Translation Thang Luong Hieu H. Pham Christopher D. Manning 220 7,930 0 17 Aug 2015