Uncovering the Visual Contribution in Audio-Visual Speech Recognition

v1v2 (latest)

Uncovering the Visual Contribution in Audio-Visual Speech Recognition

20 January 2025

ArXiv (abs)PDF HTML

Papers citing "Uncovering the Visual Contribution in Audio-Visual Speech Recognition"

15 / 15 papers shown

Title
Visual Cues Support Robust Turn-taking Prediction in Noise Sam O'Connor Russell Naomi Harte 59 0 0 28 May 2025
Tailored Design of Audio-Visual Speech Recognition Models using Branchformers David Gimeno-Gómez Carlos David Martínez Hinarejos 183 2 0 09 Jul 2024
Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels Pingchuan Ma A. Haliassos Adriana Fernandez-Lopez Honglie Chen Stavros Petridis Maja Pantic 109 115 0 25 Mar 2023
Audio-Visual Efficient Conformer for Robust Speech Recognition Maxime Burchi Radu Timofte VLM 86 35 0 04 Jan 2023
Recent Advances in End-to-End Automatic Speech Recognition Jinyu Li VLM 182 379 0 02 Nov 2021
Efficient conformer: Progressive downsampling and grouped attention for automatic speech recognition Maxime Burchi Valentin Vielzeuf 81 88 0 31 Aug 2021
End-to-end Audio-visual Speech Recognition with Conformers Pingchuan Ma Stavros Petridis Maja Pantic 169 234 0 12 Feb 2021
Conformer: Convolution-augmented Transformer for Speech Recognition Anmol Gulati James Qin Chung-Cheng Chiu Niki Parmar Yu Zhang ... Wei Han Shibo Wang Zhengdong Zhang Yonghui Wu Ruoming Pang 275 3,179 0 16 May 2020
Deep Audio-Visual Speech Recognition Triantafyllos Afouras Joon Son Chung A. Senior Oriol Vinyals Andrew Zisserman 132 711 0 06 Sep 2018
Attention-based Audio-Visual Fusion for Robust Automatic Speech Recognition George Sterpu Christian Saam N. Harte 114 65 0 05 Sep 2018
LRS3-TED: a large-scale dataset for visual speech recognition Triantafyllos Afouras Joon Son Chung Andrew Zisserman 82 446 0 03 Sep 2018
VoxCeleb2: Deep Speaker Recognition Joon Son Chung Arsha Nagrani Andrew Zisserman 382 2,290 0 14 Jun 2018
End-to-end Audiovisual Speech Recognition Stavros Petridis Themos Stafylakis Pingchuan Ma Feipeng Cai Georgios Tzimiropoulos Maja Pantic 100 253 0 18 Feb 2018
Lip Reading Sentences in the Wild Joon Son Chung A. Senior Oriol Vinyals Andrew Zisserman 323 796 0 16 Nov 2016
Deep Residual Learning for Image Recognition Kaiming He Xinming Zhang Shaoqing Ren Jian Sun MedIm 2.8K 195,310 0 10 Dec 2015