Diff-TTS: A Denoising Diffusion Model for Text-to-Speech

3 April 2021

Hyeongju Kim

Papers citing "Diff-TTS: A Denoising Diffusion Model for Text-to-Speech"

48 / 48 papers shown

Title
VoiceCloak: A Multi-Dimensional Defense Framework against Unauthorized Diffusion-based Voice Cloning Qianyue Hu Junyan Wu Wei Lu Xiangyang Luo DiffM AAML 12 0 0 18 May 2025
Language translation, and change of accent for speech-to-speech task using diffusion model Abhishek Mishra Ritesh Sur Chowdhury Vartul Bahuguna Isha Pandey Ganesh Ramakrishnan DiffM 46 0 0 04 May 2025
SlimSpeech: Lightweight and Efficient Text-to-Speech with Slim Rectified Flow Kaidi Wang Wenhao Guan Shenghui Lu Jianglong Yao Lin Li Q. Hong 32 0 0 10 Apr 2025
AudioX: Diffusion Transformer for Anything-to-Audio Generation Zeyue Tian Yizhu Jin Zhaoyang Liu Ruibin Yuan Xu Tan Qifeng Chen Wei Xue Yu Guo 67 3 0 13 Mar 2025
Survey on AI-Generated Media Detection: From Non-MLLM to MLLM Yueying Zou Peipei Li Zekun Li Huaibo Huang Xing Cui Xuannan Liu Chenghanyu Zhang Ran He DeLMO 128 2 0 07 Feb 2025
UIBDiffusion: Universal Imperceptible Backdoor Attack for Diffusion Models Yuning Han Bingyin Zhao Rui Chu Feng Luo Biplab Sikdar Yingjie Lao DiffM AAML 86 1 0 16 Dec 2024
DPI-TTS: Directional Patch Interaction for Fast-Converging and Style Temporal Modeling in Text-to-Speech Xin Qi Ruibo Fu Zhengqi Wen Tao Wang Chunyu Qiang ... Xiaopeng Wang Yuankun Xie Yukun Liu Xuefei Liu Guanjun Li DiffM 30 0 0 18 Sep 2024
Improving Robustness of Diffusion-Based Zero-Shot Speech Synthesis via Stable Formant Generation C. Han Seokgi Lee Gyuhyeon Nam Gyeongsu Chae DiffM 188 0 0 14 Sep 2024
Convergence of the denoising diffusion probabilistic models for general noise schedules Yumiharu Nakano DiffM 49 0 0 03 Jun 2024
EM-TTS: Efficiently Trained Low-Resource Mongolian Lightweight Text-to-Speech Ziqi Liang Haoxiang Shi Jiawei Wang Keda Lu 43 0 0 13 Mar 2024
Speaking in Wavelet Domain: A Simple and Efficient Approach to Speed up Speech Diffusion Model Xiangyu Zhang Daijiao Liu Hexin Liu Qiquan Zhang Hanyu Meng Leibny Paola García Chng Eng Siong Lina Yao DiffM 25 3 0 16 Feb 2024
Classification Diffusion Models: Revitalizing Density Ratio Estimation Shahar Yadin Noam Elata T. Michaeli DiffM 43 1 0 15 Feb 2024
Detecting Multimedia Generated by Large AI Models: A Survey Li Lin Neeraj Gupta Yue Zhang Hainan Ren Chun-Hao Liu Feng Ding Xin Wang Xin Li Luisa Verdoliva Shu Hu 88 58 0 22 Jan 2024
Cross-Utterance Conditioned VAE for Speech Generation Yong Li Cheng Yu Guangzhi Sun Weiqin Zu Zheng Tian ... Wei Pan Chao Zhang Jun Wang Yang Yang Fanglei Sun 21 2 0 08 Sep 2023
Matcha-TTS: A fast TTS architecture with conditional flow matching Shivam Mehta Ruibo Tu Jonas Beskow Éva Székely G. Henter 24 72 0 06 Sep 2023
Diffusion on the Probability Simplex Griffin Floto Thorsteinn Jonsson Mihai Nica Scott Sanner Eric Zhengyu Zhu DiffM 35 7 0 05 Sep 2023
DiCLET-TTS: Diffusion Model based Cross-lingual Emotion Transfer for Text-to-Speech -- A Study between English and Mandarin Tao Li Chenxu Hu Jian Cong Xinfa Zhu Jingbei Li Qiao Tian Yuping Wang Linfu Xie DiffM 41 8 0 02 Sep 2023
LightGrad: Lightweight Diffusion Probabilistic Model for Text-to-Speech Jing Chen Xingcheng Song Zhendong Peng Binbin Zhang Fuping Pan Zhiyong Wu DiffM 21 16 0 31 Aug 2023
Multi-GradSpeech: Towards Diffusion-based Multi-Speaker Text-to-speech Using Consistent Diffusion Models Heyang Xue Shuai Guo Pengcheng Zhu Mengxiao Bi DiffM 40 1 0 21 Aug 2023
Adversarial Training of Denoising Diffusion Model Using Dual Discriminators for High-Fidelity Multi-Speaker TTS Myeongji Ko Yong-Hoon Choi DiffM 20 1 0 03 Aug 2023
Diff-E: Diffusion-based Learning for Decoding Imagined Speech EEG Soowon Kim Young-Eun Lee Seo-Hyun Lee Seong-Whan Lee DiffM 31 16 0 26 Jul 2023
Learn to Sing by Listening: Building Controllable Virtual Singer by Unsupervised Learning from Voice Recordings Wei Xue Yiwen Wang Qi-fei Liu Yi-Ting Guo 37 1 0 09 May 2023
StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing Senmao Li Joost van de Weijer Taihang Hu Fahad Shahbaz Khan Qibin Hou Yaxing Wang Jian Yang DiffM 41 52 0 28 Mar 2023
TRACT: Denoising Diffusion Models with Transitive Closure Time-Distillation David Berthelot Arnaud Autef Jierui Lin Dian Ang Yap Shuangfei Zhai Siyuan Hu Daniel Zheng Walter Talbot Eric Gu DiffM 31 81 0 07 Mar 2023
An investigation into the adaptability of a diffusion-based TTS model Haolin Chen Philip N. Garner DiffM 39 1 0 03 Mar 2023
InstructTTS: Modelling Expressive TTS in Discrete Latent Space with Natural Language Style Prompt Dongchao Yang Songxiang Liu Rongjie Huang Chao Weng Helen Meng DiffM VLM 31 85 0 31 Jan 2023
Unsupervised Representation Learning from Pre-trained Diffusion Probabilistic Models Zijian Zhang Zhou Zhao Zhijie Lin DiffM 35 52 0 26 Dec 2022
Rodin: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion Tengfei Wang Bo Zhang Ting Zhang Shuyang Gu Jianmin Bao ... Jingjing Shen Dong Chen Fang Wen Qifeng Chen B. Guo 35 279 0 12 Dec 2022
UniSyn: An End-to-End Unified Model for Text-to-Speech and Singing Voice Synthesis Yinjiao Lei Shan Yang Xinsheng Wang Qicong Xie Jixun Yao Linfu Xie Dan Su DiffM 21 8 0 03 Dec 2022
Neural Vocoder Feature Estimation for Dry Singing Voice Separation Jae-Yeol Im Soonbeom Choi Sangeon Yong Juhan Nam 32 1 0 29 Nov 2022
Towards Building Text-To-Speech Systems for the Next Billion Users Gokul Karthik Kumar V. PraveenS. Pratyush Kumar Mitesh M. Khapra Karthik Nandakumar 38 18 0 17 Nov 2022
EmoDiff: Intensity Controllable Emotional Text-to-Speech with Soft-Label Guidance Yiwei Guo Chenpeng Du Xie Chen K. Yu DiffM 54 40 0 17 Nov 2022
NANSY++: Unified Voice Synthesis with Neural Analysis and Synthesis Hyeong-Seok Choi Jinhyeok Yang Juheon Lee Hyeongju Kim 20 46 0 17 Nov 2022
Blind Super-Resolution for Remote Sensing Images via Conditional Stochastic Normalizing Flows Hanlin Wu Ning Ni Shan Wang Li-bao Zhang 38 8 0 14 Oct 2022
LION: Latent Point Diffusion Models for 3D Shape Generation Fangyin Wei Arash Vahdat Francis Williams Zan Gojcic Or Litany Sanja Fidler Karsten Kreis DiffM 73 486 0 12 Oct 2022
GENIE: Higher-Order Denoising Diffusion Solvers Tim Dockhorn Arash Vahdat Karsten Kreis DiffM 49 105 0 11 Oct 2022
Enhancing Diffusion-Based Image Synthesis with Robust Classifier Guidance Bahjat Kawar Roy Ganz Michael Elad DiffM 29 38 0 18 Aug 2022
ProDiff: Progressive Fast Diffusion Model For High-Quality Text-to-Speech Rongjie Huang Zhou Zhao Huadai Liu Jinglin Liu Chenye Cui Yi Ren DiffM 44 195 0 13 Jul 2022
CopyCat2: A Single Model for Multi-Speaker TTS and Many-to-Many Fine-Grained Prosody Transfer S. Karlapati Penny Karanasou Mateusz Lajszczak Ammar Abbas Alexis Moinet Peter Makarov Raymond Li Arent van Korlaar Simon Slangen Thomas Drugman 19 15 0 27 Jun 2022
Multi-instrument Music Synthesis with Spectrogram Diffusion Curtis Hawthorne Ian Simon Adam Roberts Neil Zeghidour Josh Gardner Ethan Manilow Jesse Engel DiffM 21 49 0 11 Jun 2022
Score-Based Generative Models Detect Manifolds Jakiw Pidstrigach DiffM 27 72 0 02 Jun 2022
Score-based Generative Modeling of Graphs via the System of Stochastic Differential Equations Jaehyeong Jo Seul Lee Sung Ju Hwang DiffM 22 211 0 05 Feb 2022
Score-Based Generative Modeling with Critically-Damped Langevin Diffusion Tim Dockhorn Arash Vahdat Karsten Kreis DiffM 30 230 0 14 Dec 2021
DiffuseMorph: Unsupervised Deformable Image Registration Using Diffusion Model Boah Kim Inhwa Han Jong Chul Ye MedIm DiffM 27 64 0 09 Dec 2021
A Survey on Neural Speech Synthesis Xu Tan Tao Qin Frank Soong Tie-Yan Liu AI4TS 18 352 0 29 Jun 2021
PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior Sang-gil Lee Heeseung Kim Chaehun Shin Xu Tan Chang-Shu Liu Qi Meng Tao Qin Wei Chen Sung-Hoon Yoon Tie-Yan Liu DiffM 29 81 0 11 Jun 2021
Score-based Generative Modeling in Latent Space Arash Vahdat Karsten Kreis Jan Kautz DiffM 16 659 0 10 Jun 2021
DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism Jinglin Liu Chengxi Li Yi Ren Feiyang Chen Zhou Zhao DiffM 49 258 0 06 May 2021