Vid2speech: Speech Reconstruction from Silent Video

2 January 2017

Papers citing "Vid2speech: Speech Reconstruction from Silent Video"

30 / 30 papers shown

Title
AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars T. Zhang Jian Zhao Yuer Li Zheng Zhu Ping Hu Zhaoxin Fan Wenjun Wu Xuelong Li 21 0 0 21 May 2025
Audio-visual video-to-speech synthesis with synthesized input audio Triantafyllos Kefalas Yannis Panagakis Maja Pantic VGen DiffM 38 1 0 31 Jul 2023
ReVISE: Self-Supervised Speech Resynthesis with Visual Input for Universal and Generalized Speech Enhancement Wei-Ning Hsu Tal Remez Bowen Shi Jacob Donley Yossi Adi DiffM 27 12 0 21 Dec 2022
Learning to Dub Movies via Hierarchical Prosody Models Gaoxiang Cong Liang Li Yuankai Qi Zhengjun Zha Qi Wu Wen-yu Wang Bin Jiang Ming-Hsuan Yang Qin Huang 80 26 0 08 Dec 2022
Learning in Audio-visual Context: A Review, Analysis, and New Perspective Yake Wei Di Hu Yapeng Tian Xuelong Li 46 55 0 20 Aug 2022
FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech Synthesis Yongqiang Wang Zhou Zhao 19 10 0 08 Jul 2022
Show Me Your Face, And I'll Tell You How You Speak Christen Millerdurai L. A. Khaliq Timon Ulrich CVBM 68 0 0 28 Jun 2022
VisageSynTalk: Unseen Speaker Video-to-Speech Synthesis via Speech-Visage Feature Selection Joanna Hong Minsu Kim Y. Ro CVBM DiffM 36 8 0 15 Jun 2022
Learning Speaker-specific Lip-to-Speech Generation Munender Varshney Ravindra Yadav Vinay P. Namboodiri R. Hegde 31 7 0 04 Jun 2022
Is Lip Region-of-Interest Sufficient for Lipreading? Jing-Xuan Zhang Genshun Wan Jia Pan 24 6 0 28 May 2022
Multi-modality Associative Bridging through Memory: Speech Sound Recollected from Face Video Minsu Kim Joanna Hong Se Jin Park Yong Man Ro CVBM 25 40 0 04 Apr 2022
Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis Karren D. Yang Dejan Marković Steven Krenn Vasu Agrawal Alexander Richard VGen 20 32 0 31 Mar 2022
Visual Speech Recognition for Multiple Languages in the Wild Pingchuan Ma Stavros Petridis Maja Pantic VLM 130 145 0 26 Feb 2022
Sound and Visual Representation Learning with Multiple Pretraining Tasks A. Vasudevan Dengxin Dai Luc Van Gool SSL 38 6 0 04 Jan 2022
LipSound2: Self-Supervised Pre-Training for Lip-to-Speech Reconstruction and Lip Reading Leyuan Qu C. Weber S. Wermter 38 23 0 09 Dec 2021
Neural Dubber: Dubbing for Videos According to Scripts Chenxu Hu Qiao Tian Tingle Li Yuping Wang Yuxuan Wang Hang Zhao DiffM VGen 36 39 0 15 Oct 2021
Speaker disentanglement in video-to-speech conversion Dan Oneaţă Adriana Stan H. Cucu 24 9 0 20 May 2021
End-to-End Video-To-Speech Synthesis using Generative Adversarial Networks Rodrigo Mira Konstantinos Vougioukas Pingchuan Ma Stavros Petridis Björn W. Schuller Maja Pantic 35 43 0 27 Apr 2021
TaL: a synchronised multi-speaker corpus of ultrasound tongue imaging, audio, and lip videos M. Ribeiro Jennifer Sanger Jingxuan Zhang Aciel Eshky A. Wrench Korin Richmond Steve Renals LM&MA 24 33 0 19 Nov 2020
Learning Individual Speaking Styles for Accurate Lip to Speech Synthesis Prajwal K R Rudrabha Mukhopadhyay Vinay P. Namboodiri C. V. Jawahar 29 110 0 17 May 2020
Vocoder-Based Speech Synthesis from Silent Videos Daniel Michelsanti Olga Slizovskaia G. Haro Emilia Gómez Zheng-Hua Tan Jesper Jensen 31 31 0 06 Apr 2020
Deep Audio-Visual Learning: A Survey Hao Zhu Mandi Luo Rui Wang A. Zheng Ran He 31 156 0 14 Jan 2020
Vision-Infused Deep Audio Inpainting Hang Zhou Ziwei Liu Lingfeng Guo Ping Luo Dahua Lin 35 88 0 24 Oct 2019
Lipper: Synthesizing Thy Speech using Multi-View Lipreading Yaman Kumar Singla Rohit Jain Khwaja Mohd. Salik R. Shah Yifang Yin Roger Zimmermann 59 39 0 28 Jun 2019
Large-Scale Visual Speech Recognition Brendan Shillingford Yannis Assael Matthew W. Hoffman T. Paine Cían Hughes ... Marie Mulville Ben Coppin Ben Laurie A. Senior Nando de Freitas 35 152 0 13 Jul 2018
Lip2AudSpec: Speech reconstruction from silent lip movements video Hassan Akbari Himani Arora Liangliang Cao N. Mesgarani 27 86 0 26 Oct 2017
Decoding visemes: improving machine lipreading Helen L. Bear R. Harvey VLM 39 42 0 03 Oct 2017
Seeing Through Noise: Visually Driven Speaker Separation and Enhancement Aviv Gabbay Ariel Ephrat Tavi Halperin Shmuel Peleg 42 19 0 22 Aug 2017
Improved Speech Reconstruction from Silent Video Ariel Ephrat Tavi Halperin Shmuel Peleg 37 89 0 01 Aug 2017
Lip Reading Sentences in the Wild Joon Son Chung A. Senior Oriol Vinyals Andrew Zisserman 185 784 0 16 Nov 2016