Imaginary Voice: Face-styled Diffusion Model for Text-to-Speech

27 February 2023

Joon Son Chung

Papers citing "Imaginary Voice: Face-styled Diffusion Model for Text-to-Speech"

21 / 21 papers shown

Title
FlowDubber: Movie Dubbing with LLM-based Semantic-aware Learning and Flow Matching based Voice Enhancing Gaoxiang Cong Liang-Sheng Li Jiadong Pan Zhedong Zhang Amin Beheshti Anton Van Den Hengel Yuankai Qi Qingming Huang 135 0 0 02 May 2025
Towards Film-Making Production Dialogue, Narration, Monologue Adaptive Moving Dubbing Benchmarks Chaoyi Wang Junjie Zheng Zihao Chen Shiyu Xia Chaofan Ding Xiaohao Zhang Xi Tao Xiaoming He Xinhan Di AuLLM 120 0 0 30 Apr 2025
DeepDubber-V1: Towards High Quality and Dialogue, Narration, Monologue Adaptive Movie Dubbing Via Multi-Modal Chain-of-Thoughts Reasoning Guidance Junjie Zheng Zihao Chen Chaofan Ding Xinhan Di VGen 72 1 0 31 Mar 2025
Shushing! Let's Imagine an Authentic Speech from the Silent Video Jiaxin Ye Hongming Shan DiffM VGen 71 1 0 19 Mar 2025
Prosody-Enhanced Acoustic Pre-training and Acoustic-Disentangled Prosody Adapting for Movie Dubbing Zhedong Zhang Liang-Sheng Li C. Yan Chunshan Liu Anton Van Den Hengel Yuankai Qi 88 2 0 15 Mar 2025
MoEdit: On Learning Quantity Perception for Multi-object Image Editing Yanfeng Li Kahou Chan Yue Sun C. Lam Tong Tong Zitong Yu Keren Fu Xiaohong Liu Tao Tan DiffM 41 0 0 13 Mar 2025
FaceSpeak: Expressive and High-Quality Speech Synthesis from Human Portraits of Different Styles Tian-Hao Zhang Jiawei Zhang Jun Wang Xinyuan Qian Xu-cheng Yin CVBM 47 0 0 02 Jan 2025
Face-StyleSpeech: Enhancing Zero-shot Speech Synthesis from Face Images with Improved Face-to-Speech Mapping Minki Kang Wooseok Han Eunho Yang CVBM 39 0 0 31 Dec 2024
EmoDubber: Towards High Quality and Emotion Controllable Movie Dubbing Gaoxiang Cong Jiadong Pan Liang-Sheng Li Yuankai Qi Yuxin Peng Anton Van Den Hengel Jian Yang Qingming Huang 92 6 0 12 Dec 2024
A Survey of Recent Advances and Challenges in Deep Audio-Visual Correlation Learning Luis Vilaca Yi Yu Paula Vinan 75 0 0 24 Nov 2024
Facial Expression-Enhanced TTS: Combining Face Representation and Emotion Intensity for Adaptive Speech Yunji Chu Yunseob Shim Unsang Park 31 0 0 24 Sep 2024
Seeing Your Speech Style: A Novel Zero-Shot Identity-Disentanglement Face-based Voice Conversion Yan Rong Li Liu 29 3 0 01 Sep 2024
Hear Your Face: Face-based voice conversion with F0 estimation Jaejun Lee Yoori Oh Injune Hwang Kyogu Lee CVBM 29 1 0 19 Aug 2024
Faces that Speak: Jointly Synthesising Talking Face and Speech from Text Youngjoon Jang Ji-Hoon Kim Junseok Ahn Doyeop Kwak Hong-Sun Yang Yooncheol Ju Il-Hwan Kim Byeong-Yeol Kim Joon Son Chung CVBM 31 9 0 16 May 2024
StyleDubber: Towards Multi-Scale Style Learning for Movie Dubbing Gaoxiang Cong Yuankai Qi Liang-Sheng Li Amin Beheshti Zhedong Zhang Anton Van Den Hengel Ming-Hsuan Yang Chenggang Yan Qingming Huang 46 12 0 20 Feb 2024
MM-TTS: Multi-modal Prompt based Style Transfer for Expressive Text-to-Speech Synthesis Wenhao Guan Yishuang Li Tao Li Hukai Huang Feng Wang Jiayan Lin Lingyan Huang Lin Li Q. Hong 23 8 0 17 Dec 2023
Realistic Speech-to-Face Generation with Speech-Conditioned Latent Diffusion Model with Face Prior Jinting Wang Li Liu Jun Wang Hei Victor Cheng DiffM 15 2 0 05 Oct 2023
Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models J. Choi Minsu Kim Se Jin Park Y. Ro CVBM 16 3 0 28 Jun 2023
Guided-TTS 2: A Diffusion Model for High-quality Adaptive Text-to-Speech with Untranscribed Data Sungwon Kim Heeseung Kim Sung-Hoon Yoon DiffM 196 52 0 30 May 2022
VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency Ruohan Gao Kristen Grauman CVBM 196 198 0 08 Jan 2021
VoxCeleb2: Deep Speaker Recognition Joon Son Chung Arsha Nagrani Andrew Zisserman 236 2,233 0 14 Jun 2018