FluentLip: A Phonemes-Based Two-stage Approach for Audio-Driven Lip Synthesis with Optical Flow Consistency

6 April 2025

Papers citing "FluentLip: A Phonemes-Based Two-stage Approach for Audio-Driven Lip Synthesis with Optical Flow Consistency"

16 / 16 papers shown

Title
Seeing What You Said: Talking Face Generation Guided by a Lip Reading Expert Jiadong Wang Xinyuan Qian Malu Zhang R. Tan Haizhou Li EGVM 48 96 0 29 Mar 2023
Make-A-Video: Text-to-Video Generation without Text-Video Data Uriel Singer Adam Polyak Thomas Hayes Xiaoyue Yin Jie An ... Oron Ashual Oran Gafni Devi Parikh Sonal Gupta Yaniv Taigman DiffM VGen 74 1,406 0 29 Sep 2022
Diffusion-GAN: Training GANs with Diffusion Zhendong Wang Huangjie Zheng Pengcheng He Weizhu Chen Mingyuan Zhou DiffM 58 230 0 05 Jun 2022
Learning Audio-Visual Speech Representation by Masked Multimodal Cluster Prediction Bowen Shi Wei-Ning Hsu Kushal Lakhotia Abdel-rahman Mohamed SSL 86 316 0 05 Jan 2022
Diffusion Models Beat GANs on Image Synthesis Prafulla Dhariwal Alex Nichol 183 7,765 0 11 May 2021
Text2Video: Text-driven Talking-head Video Synthesis with Personalized Phoneme-Pose Dictionary Sibo Zhang Jiahong Yuan Miao Liao Liangjun Zhang 47 34 0 29 Apr 2021
A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild Prajwal K R Rudrabha Mukhopadhyay Vinay P. Namboodiri C. V. Jawahar EGVM 96 777 0 23 Aug 2020
Denoising Diffusion Probabilistic Models Jonathan Ho Ajay Jain Pieter Abbeel DiffM 519 17,888 0 19 Jun 2020
RAFT: Recurrent All-Pairs Field Transforms for Optical Flow Zachary Teed Jia Deng MDE 214 2,612 0 26 Mar 2020
Towards Automatic Face-to-Face Translation Prajwal K R Rudrabha Mukhopadhyay Jerin Philip Abhishek Jha Vinay P. Namboodiri C. V. Jawahar CVBM 89 174 0 01 Mar 2020
Everybody's Talkin': Let Me Talk as You Want Linsen Song Wayne Wu Chao Qian Ran He Chen Change Loy DiffM VGen 73 144 0 15 Jan 2020
Bridging Stereo Matching and Optical Flow via Spatiotemporal Correspondence Hsueh-Ying Lai Yi-Hsuan Tsai Wei-Chen Chiu 48 80 0 22 May 2019
Deep Audio-Visual Speech Recognition Triantafyllos Afouras Joon Son Chung A. Senior Oriol Vinyals Andrew Zisserman 69 703 0 06 Sep 2018
Talking Face Generation by Conditional Recurrent Adversarial Network Yang Song Jingwen Zhu Dawei Li Xiaolong Wang Hairong Qi CVBM 120 194 0 13 Apr 2018
ObamaNet: Photo-realistic lip-sync from text Rithesh Kumar Jose M. R. Sotelo Kundan Kumar A. D. Brébisson Yoshua Bengio 49 120 0 06 Dec 2017
FlowNet 2.0: Evolution of Optical Flow Estimation with Deep Networks Eddy Ilg N. Mayer Tonmoy Saikia Margret Keuper Alexey Dosovitskiy Thomas Brox 3DPC 248 3,077 0 06 Dec 2016