MM-MovieDubber: Towards Multi-Modal Learning for Multi-Modal Movie Dubbing

MM-MovieDubber: Towards Multi-Modal Learning for Multi-Modal Movie Dubbing

22 May 2025

ArXiv (abs)PDF HTML

Papers citing "MM-MovieDubber: Towards Multi-Modal Learning for Multi-Modal Movie Dubbing"

17 / 17 papers shown

Title
Generative Landmarks Guided Eyeglasses Removal 3D Face Reconstruction Dapeng Zhao Yue Qi 3DH CVBM 3DV 103 1 0 31 Dec 2024
F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching Yushen Chen Zhikang Niu Ziyang Ma Keqi Deng Chunhui Wang Jian Zhao Kai Yu Xie Chen 118 85 0 09 Oct 2024
DiVE: DiT-based Video Generation with Enhanced Control Junpeng Jiang Gangyi Hong Lijun Zhou Enhui Ma Hengtong Hu ... Kaicheng Yu Haiyang Sun Kun Zhan Peng Jia Miao Zhang VGen DiffM 52 13 0 03 Sep 2024
Emilia: An Extensive, Multilingual, and Diverse Speech Dataset for Large-Scale Speech Generation Haorui He Zengqiang Shang Chaoren Wang Xuyuan Li Yicheng Gu ... Peiyang Shi Yuancheng Wang Kai Chen Pengyuan Zhang Zhizheng Wu 77 50 0 07 Jul 2024
StyleDubber: Towards Multi-Scale Style Learning for Movie Dubbing Gaoxiang Cong Yuankai Qi Liang-Sheng Li Amin Beheshti Zhedong Zhang Anton Van Den Hengel Ming-Hsuan Yang Chenggang Yan Qingming Huang 88 14 0 20 Feb 2024
Visual Instruction Tuning Haotian Liu Chunyuan Li Qingyang Wu Yong Jae Lee SyDa VLM MLLM 534 4,861 0 17 Apr 2023
Imaginary Voice: Face-styled Diffusion Model for Text-to-Speech Jiyoung Lee Joon Son Chung Soo-Whan Chung DiffM 86 30 0 27 Feb 2023
Learning to Dub Movies via Hierarchical Prosody Models Gaoxiang Cong Liang Li Yuankai Qi Zhengjun Zha Qi Wu Wen-yu Wang Bin Jiang Ming-Hsuan Yang Qin Huang 102 27 0 08 Dec 2022
Robust Speech Recognition via Large-Scale Weak Supervision Alec Radford Jong Wook Kim Tao Xu Greg Brockman C. McLeavey Ilya Sutskever OffRL 194 3,684 0 06 Dec 2022
Flow Matching for Generative Modeling Y. Lipman Ricky T. Q. Chen Heli Ben-Hamu Maximilian Nickel Matt Le OOD 207 1,307 0 06 Oct 2022
V2C: Visual Voice Cloning Qi Chen Yuanqing Li Yuankai Qi Jiaqiu Zhou Mingkui Tan Qi Wu VGen 60 27 0 25 Nov 2021
More than Words: In-the-Wild Visually-Driven Prosody for Text-to-Speech Michael Hassid Michelle Tadmor Ramanovich Brendan Shillingford Miaosen Wang Ye Jia Tal Remez DiffM 49 18 0 19 Nov 2021
Neural Dubber: Dubbing for Videos According to Scripts Chenxu Hu Qiao Tian Tingle Li Yuping Wang Yuxuan Wang Hang Zhao DiffM VGen 70 43 0 15 Oct 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 931 29,436 0 26 Feb 2021
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer Colin Raffel Noam M. Shazeer Adam Roberts Katherine Lee Sharan Narang Michael Matena Yanqi Zhou Wei Li Peter J. Liu AIMat 442 20,181 0 23 Oct 2019
Location-Relative Attention Mechanisms For Robust Long-Form Speech Synthesis Eric Battenberg RJ Skerry-Ryan Soroosh Mariooryad Daisy Stanton David Kao Matt Shannon Tom Bagby 77 114 0 23 Oct 2019
Generalized End-to-End Loss for Speaker Verification Li Wan Quan Wang Alan Papir Ignacio López Moreno VLM 68 927 0 28 Oct 2017