DiffGAN-TTS: High-Fidelity and Efficient Text-to-Speech with Denoising Diffusion GANs

28 January 2022

Papers citing "DiffGAN-TTS: High-Fidelity and Efficient Text-to-Speech with Denoising Diffusion GANs"

35 / 35 papers shown

Title
STOPA: A Database of Systematic VariaTion Of DeePfake Audio for Open-Set Source Tracing and Attribution Anton Firc Manasi Chibber Jagabandhu Mishra Vishwanath Pratap Singh Tomi Kinnunen K. Malinka 87 0 0 26 May 2025
Tackling the Generative Learning Trilemma with Denoising Diffusion GANs Zhisheng Xiao Karsten Kreis Arash Vahdat DiffM 60 544 0 15 Dec 2021
LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech Wen-Chin Huang Erica Cooper Junichi Yamagishi Tomoki Toda 42 75 0 18 Oct 2021
PortaSpeech: Portable and High-Quality Generative Text-to-Speech Yi Ren Jinglin Liu Zhou Zhao 56 78 0 30 Sep 2021
One TTS Alignment To Rule Them All Rohan Badlani A. Lancucki Kevin J. Shih Rafael Valle Ming-Yu Liu Bryan Catanzaro 50 83 0 23 Aug 2021
GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech Synthesis Jinhyeok Yang Jaesung Bae Taejun Bak Young-Ik Kim Hoon-Young Cho 90 36 0 29 Jun 2021
Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech Jaehyeon Kim Jungil Kong Juhee Son DRL 101 866 0 11 Jun 2021
Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech Vadim Popov Ivan Vovk Vladimir Gogoryan Tasnima Sadekova Mikhail Kudinov DiffM 77 526 0 13 May 2021
Utilizing Self-supervised Representations for MOS Prediction Wei-Cheng Tseng Chien-yu Huang Wei-Tsung Kao Yist Y. Lin Hung-yi Lee SSL 47 64 0 07 Apr 2021
Symbolic Music Generation with Diffusion Models Gautam Mittal Jesse Engel Curtis Hawthorne Ian Simon MGen DiffM 73 193 0 30 Mar 2021
MBNet: MOS Prediction for Synthesized Speech with Mean-Bias Network Yichong Leng Xu Tan Sheng Zhao Frank Soong Xiang-Yang Li Tao Qin 46 96 0 27 Feb 2021
VARA-TTS: Non-Autoregressive Text-to-Speech Synthesis based on Very Deep VAE with Residual Attention Peng Liu Yuewen Cao Songxiang Liu Na Hu Guangzhi Li Chao Weng Dan Su 52 22 0 12 Feb 2021
EfficientTTS: An Efficient and High-Quality Text-to-Speech Architecture Chenfeng Miao Shuang Liang Zhencheng Liu Minchuan Chen Jun Ma Shaojun Wang Jing Xiao 27 38 0 07 Dec 2020
Score-Based Generative Modeling through Stochastic Differential Equations Yang Song Jascha Narain Sohl-Dickstein Diederik P. Kingma Abhishek Kumar Stefano Ermon Ben Poole DiffM SyDa 255 6,293 0 26 Nov 2020
Parallel Tacotron: Non-Autoregressive and Controllable TTS Isaac Elias Heiga Zen Jonathan Shen Yu Zhang Ye Jia Ron J. Weiss Yonghui Wu DRL 54 103 0 22 Oct 2020
HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis Jungil Kong Jaehyeon Kim Jaekyoung Bae 96 1,891 0 12 Oct 2020
DiffWave: A Versatile Diffusion Model for Audio Synthesis Zhifeng Kong Ming-Yu Liu Jiaji Huang Kexin Zhao Bryan Catanzaro DiffM BDL 75 1,429 0 21 Sep 2020
WaveGrad: Estimating Gradients for Waveform Generation Nanxin Chen Yu Zhang Heiga Zen Ron J. Weiss Mohammad Norouzi William Chan DiffM BDL 47 787 0 02 Sep 2020
VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested Adversarial Network Jinhyeok Yang Junmo Lee Young-Ik Kim Hoonyoung Cho Injung Kim 43 73 0 30 Jul 2020
Denoising Diffusion Probabilistic Models Jonathan Ho Ajay Jain Pieter Abbeel DiffM 264 17,550 0 19 Jun 2020
FastSpeech 2: Fast and High-Quality End-to-End Text to Speech Yi Ren Chenxu Hu Xu Tan Tao Qin Sheng Zhao Zhou Zhao Tie-Yan Liu 82 1,382 0 08 Jun 2020
End-to-End Adversarial Text-to-Speech Jeff Donahue Sander Dieleman Mikolaj Binkowski Erich Elsen Karen Simonyan 42 186 0 05 Jun 2020
Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search Jaehyeon Kim Sungwon Kim Jungil Kong Sungroh Yoon 66 482 0 22 May 2020
AlignTTS: Efficient Feed-Forward Text-to-Speech System without Explicit Alignment Zhen Zeng Jianzong Wang Ning Cheng Tian Xia Jing Xiao VLM 43 56 0 04 Mar 2020
Permutation Invariant Graph Generation via Score-Based Generative Modeling Chenhao Niu Yang Song Jiaming Song Shengjia Zhao Aditya Grover Stefano Ermon DiffM 42 266 0 02 Mar 2020
MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis Kundan Kumar Rithesh Kumar T. Boissière L. Gestin Wei Zhen Teoh Jose M. R. Sotelo A. D. Brébisson Yoshua Bengio Aaron Courville GAN 59 945 0 08 Oct 2019
A Style-Based Generator Architecture for Generative Adversarial Networks Tero Karras S. Laine Timo Aila 494 10,466 0 12 Dec 2018
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 360 129,831 0 12 Jun 2017
Deep Voice 2: Multi-Speaker Neural Text-to-Speech Sercan O. Arik G. Diamos Andrew Gibiansky John Miller Kainan Peng Ming-Yu Liu Jonathan Raiman Yanqi Zhou 59 495 0 24 May 2017
Tacotron: Towards End-to-End Speech Synthesis Yuxuan Wang RJ Skerry-Ryan Daisy Stanton Yonghui Wu Ron J. Weiss ... Samy Bengio Quoc V. Le Yannis Agiomyrgiannakis R. Clark Rif A. Saurous 128 1,817 0 29 Mar 2017
Least Squares Generative Adversarial Networks Xudong Mao Qing Li Haoran Xie Raymond Y. K. Lau Zhen Wang Stephen Paul Smolley GAN 239 4,554 0 13 Nov 2016
WaveNet: A Generative Model for Raw Audio Aaron van den Oord Sander Dieleman Heiga Zen Karen Simonyan Oriol Vinyals Alex Graves Nal Kalchbrenner A. Senior Koray Kavukcuoglu DiffM 265 7,361 0 12 Sep 2016
Autoencoding beyond pixels using a learned similarity metric Anders Boesen Lindbo Larsen Søren Kaae Sønderby Hugo Larochelle Ole Winther GAN 124 2,061 0 31 Dec 2015
Deep Unsupervised Learning using Nonequilibrium Thermodynamics Jascha Narain Sohl-Dickstein Eric A. Weiss Niru Maheswaranathan Surya Ganguli SyDa DiffM 173 6,780 0 12 Mar 2015
Adam: A Method for Stochastic Optimization Diederik P. Kingma Jimmy Ba ODL 673 149,474 0 22 Dec 2014