Intuitive Multilingual Audio-Visual Speech Recognition with a Single-Trained Model

23 October 2023

Papers citing "Intuitive Multilingual Audio-Visual Speech Recognition with a Single-Trained Model"

5 / 5 papers shown

Title
mWhisper-Flamingo for Multilingual Audio-Visual Noise-Robust Speech Recognition Andrew Rouditchenko Saurabhchand Bhati Samuel Thomas Hilde Kuehne Rogerio Feris 116 1 0 03 Feb 2025
Tailored Design of Audio-Visual Speech Recognition Models using Branchformers David Gimeno-Gómez Carlos David Martínez Hinarejos 94 2 0 09 Jul 2024
Watch or Listen: Robust Audio-Visual Speech Recognition with Visual Corruption Modeling and Reliability Scoring Joanna Hong Minsu Kim J. Choi Y. Ro 32 19 0 15 Mar 2023
End-to-end Audio-visual Speech Recognition with Conformers Pingchuan Ma Stavros Petridis M. Pantic 84 225 0 12 Feb 2021
VoxCeleb2: Deep Speaker Recognition Joon Son Chung Arsha Nagrani Andrew Zisserman 245 2,233 0 14 Jun 2018