Speech Driven Video Editing via an Audio-Conditioned Diffusion Model

Speech Driven Video Editing via an Audio-Conditioned Diffusion Model

10 January 2023

Shubhajit Basak

Michał Stypułkowski

Papers citing "Speech Driven Video Editing via an Audio-Conditioned Diffusion Model"

16 / 16 papers shown

Title
KeySync: A Robust Approach for Leakage-free Lip Synchronization in High Resolution Antoni Bigata Rodrigo Mira Stella Bounareli Michał Stypułkowski Konstantinos Vougioukas Stavros Petridis Maja Pantic 52 0 0 01 May 2025
DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation Hanbo Cheng Limin Lin Chenyu Liu Pengcheng Xia Pengfei Hu Jiefeng Ma Jun Du Jia Pan DiffM VGen 130 0 0 17 Oct 2024
High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model Weizhi Zhong Junfan Lin Peixin Chen Liang Lin Guanbin Li 34 1 0 10 Aug 2024
Landmark-guided Diffusion Model for High-fidelity and Temporally Coherent Talking Head Generation Jintao Tan Xize Cheng Lingyu Xiong Lei Zhu Xiandong Li Xianjia Wu Kai Gong Minglei Li Yi Cai DiffM 28 2 0 03 Aug 2024
LatentColorization: Latent Diffusion-Based Speaker Video Colorization Rory Ward Dan Bigioi Shubhajit Basak John G. Breslin Peter Corcoran VGen DiffM 27 2 0 09 May 2024
Neural Text to Articulate Talk: Deep Text to Audiovisual Speech Synthesis achieving both Auditory and Photo-realism Georgios Milis P. Filntisis A. Roussos Petros Maragos CVBM 34 2 0 11 Dec 2023
Face Generation and Editing with StyleGAN: A Survey Andrew Melnik Maksim Miasayedzenkau Dzianis Makaravets Dzianis Pirshtuk Eren Akbulut Dennis Holzmann Tarek Renusch Gustav Reichert Helge J. Ritter CVBM 27 40 0 18 Dec 2022
Diffusion Models: A Comprehensive Survey of Methods and Applications Ling Yang Zhilong Zhang Yingxia Shao Shenda Hong Runsheng Xu Yue Zhao Wentao Zhang Bin Cui Ming-Hsuan Yang DiffM MedIm 224 1,302 0 02 Sep 2022
Guided-TTS 2: A Diffusion Model for High-quality Adaptive Text-to-Speech with Untranscribed Data Sungwon Kim Heeseung Kim Sung-Hoon Yoon DiffM 196 52 0 30 May 2022
EAMM: One-Shot Emotional Talking Face via Audio-Based Emotion-Aware Motion Model Xinya Ji Hang Zhou Kaisiyuan Wang Qianyi Wu Wayne Wu Feng Xu Xun Cao CVBM 54 157 0 30 May 2022
Flexible Diffusion Modeling of Long Videos William Harvey Saeid Naderiparizi Vaden Masrani Christian Weilbach Frank D. Wood DiffM BDL VGen 176 285 0 23 May 2022
RePaint: Inpainting using Denoising Diffusion Probabilistic Models Andreas Lugmayr Martin Danelljan Andrés Romero F. I. F. Richard Yu Radu Timofte Luc Van Gool DiffM 215 1,354 0 24 Jan 2022
Palette: Image-to-Image Diffusion Models Chitwan Saharia William Chan Huiwen Chang Chris A. Lee Jonathan Ho Tim Salimans David J. Fleet Mohammad Norouzi DiffM VLM 342 1,588 0 10 Nov 2021
EdiTTS: Score-based Editing for Controllable Text-to-Speech Jaesung Tae Hyeongju Kim Taesu Kim DiffM 173 39 0 06 Oct 2021
Image-to-Image Translation with Conditional Adversarial Networks Phillip Isola Jun-Yan Zhu Tinghui Zhou Alexei A. Efros SSeg 212 19,447 0 21 Nov 2016
Lip Reading Sentences in the Wild Joon Son Chung A. Senior Oriol Vinyals Andrew Zisserman 162 784 0 16 Nov 2016