Title
End-to-End Video-To-Speech Synthesis using Generative Adversarial Networks Rodrigo Mira Konstantinos Vougioukas Pingchuan Ma Stavros Petridis Björn W. Schuller M. Pantic 29 43 0 27 Apr 2021
End-to-end Audio-visual Speech Recognition with Conformers Pingchuan Ma Stavros Petridis M. Pantic 86 225 0 12 Feb 2021
AuthNet: A Deep Learning based Authentication Mechanism using Temporal Facial Feature Movements M. Raghavendra P. Omprakash B. Mukesh Sowmya Kamath CVBM 14 2 0 04 Dec 2020
Disentangling Homophemes in Lip Reading using Perplexity Analysis Souheil Fenghour Daqing Chen Kun Guo Perry Xiao 31 3 0 28 Nov 2020
Large-scale multilingual audio visual dubbing Yi Yang Brendan Shillingford Yannis Assael Miaosen Wang Wendi Liu ... Eren Sezener Luis C. Cobo Misha Denil Y. Aytar Nando de Freitas 30 20 0 06 Nov 2020
Seeing wake words: Audio-visual Keyword Spotting Liliane Momeni Triantafyllos Afouras Themos Stafylakis Samuel Albanie Andrew Zisserman 46 43 0 02 Sep 2020
FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire Jinglin Liu Yi Ren Zhou Zhao Chen Zhang Baoxing Huai Jing Yuan 14 11 0 06 Aug 2020
Towards Practical Lipreading with Distilled and Efficient Models Pingchuan Ma Brais Martínez Stavros Petridis M. Pantic 26 95 0 13 Jul 2020
Predicting Video features from EEG and Vice versa G. Krishna Co Tran Mason Carnahan Ahmed H. Tewfik CVBM 6 0 0 16 May 2020
How to Teach DNNs to Pay Attention to the Visual Modality in Speech Recognition George Sterpu Christian Saam N. Harte 34 28 0 17 Apr 2020
$M^3$ T: Multi-Modal Continuous Valence-Arousal Estimation in the Wild Yuanhang Zhang Rulin Huang Jiabei Zeng Shiguang Shan Xilin Chen CVBM 17 27 0 07 Feb 2020
Audio-Visual Decision Fusion for WFST-based and seq2seq Models R. Aralikatti Sharad Roy Abhinav Thanda D. Margam Pujitha Appan Kandala Tanay Sharma S. Venkatesan 19 1 0 29 Jan 2020
Lipreading using Temporal Convolutional Networks Brais Martínez Pingchuan Ma Stavros Petridis M. Pantic 168 239 0 23 Jan 2020
ASR is all you need: cross-modal distillation for lip reading Triantafyllos Afouras Joon Son Chung Andrew Zisserman 11 135 0 28 Nov 2019
Hearing Lips: Improving Lip Reading by Distilling Speech Recognizers Ya Zhao Rui Xu Xinchao Wang Peng Hou Haihong Tang Xiuming Zhang 9 89 0 26 Nov 2019
Recurrent Neural Network Transducer for Audio-Visual Speech Recognition Takaki Makino H. Liao Yannis Assael Brendan Shillingford Basi García Otavio Braga Olivier Siohan 18 129 0 08 Nov 2019
LipReading with 3D-2D-CNN BLSTM-HMM and word-CTC models D. Margam R. Aralikatti Tanay Sharma Abhinav Thanda K. PujithaA. Sharad Roy S. Venkatesan 18 17 0 25 Jun 2019
Time Domain Audio Visual Speech Separation Jian Wu Yong-mei Xu Shi-Xiong Zhang Lianwu Chen Meng Yu Lei Xie Dong Yu 25 114 0 07 Apr 2019
End-to-End Visual Speech Recognition for Small-Scale Datasets Stavros Petridis Yujiang Wang Pingchuan Ma Zuwei Li M. Pantic AI4TS VLM 14 35 0 02 Apr 2019
AVA-ActiveSpeaker: An Audio-Visual Dataset for Active Speaker Detection Joseph Roth Sourish Chaudhuri Ondˇrej Klejch Radhika Marvin Andrew C. Gallagher ... S. Ramaswamy Arkadiusz Stopczynski Cordelia Schmid Zhonghua Xi C. Pantofaru 11 143 0 05 Jan 2019
An Empirical Analysis of Deep Audio-Visual Models for Speech Recognition Devesh Walawalkar Yihui He R. Pillai 30 1 0 21 Dec 2018
Pushing the boundaries of audiovisual word recognition using Residual Networks and LSTMs Themos Stafylakis M. H. Khan Georgios Tzimiropoulos VLM 16 59 0 03 Nov 2018
The speaker-independent lipreading play-off; a survey of lipreading machines Jake Burton David Frank Mahdi Saleh Nassir Navab Helen L. Bear 6 11 0 24 Oct 2018
Audio-Visual Speech Recognition With A Hybrid CTC/Attention Architecture Stavros Petridis Themos Stafylakis Pingchuan Ma Georgios Tzimiropoulos M. Pantic 14 129 0 28 Sep 2018
Deep Audio-Visual Speech Recognition Triantafyllos Afouras Joon Son Chung A. Senior Oriol Vinyals Andrew Zisserman 27 687 0 06 Sep 2018
LRS3-TED: a large-scale dataset for visual speech recognition Triantafyllos Afouras Joon Son Chung Andrew Zisserman 14 425 0 03 Sep 2018
Group Normalization Yuxin Wu Kaiming He 54 3,602 0 22 Mar 2018
Decoding visemes: improving machine lipreading Helen L. Bear R. Harvey VLM 39 42 0 03 Oct 2017
Lip Reading Sentences in the Wild Joon Son Chung A. Senior Oriol Vinyals Andrew Zisserman 185 784 0 16 Nov 2016