v1v2 (latest)

Visual Speech Recognition for Multiple Languages in the Wild

26 February 2022

Papers citing "Visual Speech Recognition for Multiple Languages in the Wild"

50 / 70 papers shown

Title
Transfer Learning from Visual Speech Recognition to Mouthing Recognition in German Sign Language Dinh Nam Pham Eleftherios Avramidis SLR 86 0 0 20 May 2025
MMS-LLaMA: Efficient LLM-based Audio-Visual Speech Recognition with Minimal Multimodal Speech Tokens Jeong Hun Yeo Hyeongseop Rha Se Jin Park Y. Ro 121 0 0 14 Mar 2025
DiVISe: Direct Visual-Input Speech Synthesis Preserving Speaker Characteristics And Intelligibility Yifan Liu Yu Fang Zhouhan Lin 91 1 0 07 Mar 2025
mWhisper-Flamingo for Multilingual Audio-Visual Noise-Robust Speech Recognition Andrew Rouditchenko Saurabhchand Bhati Samuel Thomas Hilde Kuehne Rogerio Feris 228 1 0 03 Feb 2025
DiMoDif: Discourse Modality-information Differentiation for Audio-visual Deepfake Detection and Localization C. Koutlis Symeon Papadopoulos 124 4 0 15 Nov 2024
Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs A. Haliassos Rodrigo Mira Honglie Chen Zoe Landgraf Stavros Petridis Maja Pantic SSL 86 7 0 04 Nov 2024
AlignVSR: Audio-Visual Cross-Modal Alignment for Visual Speech Recognition Ziqiang Liu Xiaolou Li Chen Chen Li Guo Lantian Li D. Wang 66 1 0 21 Oct 2024
Full-Rank No More: Low-Rank Weight Training for Modern Speech Recognition Models Adriana Fernandez-Lopez Shiwei Liu L. Yin Stavros Petridis Maja Pantic 57 1 0 10 Oct 2024
Diffusion-based Unsupervised Audio-visual Speech Enhancement Jean-Eudes Ayilo Mostafa Sadeghi Romain Serizel Xavier Alameda-Pineda DiffM 106 1 0 04 Oct 2024
Large Language Models are Strong Audio-Visual Speech Recognition Learners Umberto Cappellazzo Minsu Kim Honglie Chen Pingchuan Ma Stavros Petridis Daniele Falavigna Alessio Brutti Maja Pantic 114 12 0 18 Sep 2024
RAL:Redundancy-Aware Lipreading Model Based on Differential Learning with Symmetric Views Zejun gu Junxia jiang 92 0 0 09 Sep 2024
Tailored Design of Audio-Visual Speech Recognition Models using Branchformers David Gimeno-Gómez Carlos David Martínez Hinarejos 172 2 0 09 Jul 2024
Enhancing Speech-Driven 3D Facial Animation with Audio-Visual Guidance from Lip Reading Expert Han EunGi Oh Hyun-Bin Kim Sung-Bin Corentin Nivelet Etcheberry Suekyeong Nam Janghoon Joo Tae-Hyun Oh 95 6 0 01 Jul 2024
Dynamic Data Pruning for Automatic Speech Recognition Q. Xiao Pingchuan Ma Adriana Fernandez-Lopez Boqian Wu Lu Yin Stavros Petridis Mykola Pechenizkiy Maja Pantic Decebal Constantin Mocanu Shiwei Liu 69 4 0 26 Jun 2024
MSRS: Training Multimodal Speech Recognition Models from Scratch with Sparse Mask Optimization Adriana Fernandez-Lopez Honglie Chen Pingchuan Ma Lu Yin Q. Xiao Stavros Petridis Shiwei Liu Maja Pantic 88 2 0 25 Jun 2024
SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization Young Jin Ahn Jungwoo Park Sangha Park Jonghyun Choi Kee-Eung Kim 107 8 0 18 Jun 2024
CNVSRC 2023: The First Chinese Continuous Visual Speech Recognition Challenge Chen Chen Zehua Liu Xiaolou Li Lantian Li D. Wang 66 4 0 14 Jun 2024
Missingness-resilient Video-enhanced Multimodal Disfluency Detection Payal Mohapatra Shamika Likhite Subrata Biswas Bashima Islam Qi Zhu 86 3 0 11 Jun 2024
LipGER: Visually-Conditioned Generative Error Correction for Robust Automatic Speech Recognition Sreyan Ghosh Sonal Kumar Ashish Seth Purva Chiniya Utkarsh Tyagi R. Duraiswami Dinesh Manocha 99 0 0 06 Jun 2024
OpFlowTalker: Realistic and Natural Talking Face Generation via Optical Flow Guidance Shuheng Ge Haoyu Xing Li Zhang Xiangqian Wu 99 0 0 23 May 2024
Learn2Talk: 3D Talking Face Learns from 2D Talking Face Yixiang Zhuang Baoping Cheng Yao Cheng Yuntao Jin Renshuai Liu Chengyang Li Xuan Cheng Jing Liao Juncong Lin CVBM 3DH 94 7 0 19 Apr 2024
BRAVEn: Improving Self-Supervised Pre-training for Visual and Auditory Speech Recognition A. Haliassos Andreas Zinonos Rodrigo Mira Stavros Petridis Maja Pantic VLM SSL AI4TS 79 13 0 02 Apr 2024
Landmark-Guided Cross-Speaker Lip Reading with Mutual Information Regularization Linzhi Wu Xingyu Zhang Yakun Zhang Changyan Zheng Tiejun Liu Liang Xie Ye Yan Erwei Yin 61 1 0 24 Mar 2024
Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer Maxime Burchi Krishna C. Puvvada Jagadeesh Balam Boris Ginsburg Radu Timofte 80 8 0 14 Mar 2024
Neural Additive Image Model: Interpretation through Interpolation Arik Reuter Anton Thielmann Benjamin Saefken DiffM 153 1 0 06 Mar 2024
JEP-KD: Joint-Embedding Predictive Architecture Based Knowledge Distillation for Visual Speech Recognition Chang Sun Hong Yang Bo Qin VLM 67 1 0 04 Mar 2024
Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing Jeong Hun Yeo Seunghee Han Minsu Kim Y. Ro 119 15 0 23 Feb 2024
AnnoTheia: A Semi-Automatic Annotation Toolkit for Audio-Visual Speech Technologies José-M. Acosta-Triana David Gimeno-Gómez Carlos David Martínez Hinarejos VLM VGen 125 2 0 20 Feb 2024
Comparison of Conventional Hybrid and CTC/Attention Decoders for Continuous Visual Speech Recognition David Gimeno-Gómez Carlos David Martínez Hinarejos 73 1 0 20 Feb 2024
Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation Minsu Kim Jeong Hun Yeo Se Jin Park J. Choi Y. Ro 99 6 0 18 Jan 2024
Multichannel AV-wav2vec2: A Framework for Learning Multichannel Multi-Modal Speech Representation Qiu-shi Zhu Jie Zhang Yu Gu Yuli Hu Lirong Dai SSL 109 11 0 07 Jan 2024
LiteVSR: Efficient Visual Speech Recognition by Learning from Speech Representations of Unlabeled Data Hendrik Laux Emil Mededovic Ahmed Hallawa Lukas Martin A. Peine Anke Schmeink VLM 52 4 0 15 Dec 2023
The GUA-Speech System Description for CNVSRC Challenge 2023 Shengqiang Li Chao Lei Baozhong Ma Binbin Zhang Fuping Pan 57 0 0 12 Dec 2023
Neural Text to Articulate Talk: Deep Text to Audiovisual Speech Synthesis achieving both Auditory and Photo-realism Georgios Milis P. Filntisis A. Roussos Petros Maragos CVBM 66 3 0 11 Dec 2023
AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation J. Choi Se Jin Park Minsu Kim Y. Ro 112 14 0 05 Dec 2023
Do VSR Models Generalize Beyond LRS3? Y. A. D. Djilali Sanath Narayan Eustache Le Bihan Haithem Boussaid Ebtesam Almazrouei Merouane Debbah 85 4 0 23 Nov 2023
Speaker-Adapted End-to-End Visual Speech Recognition for Continuous Spanish David Gimeno-Gómez Carlos David Martínez Hinarejos 60 0 0 21 Nov 2023
LIP-RTVE: An Audiovisual Database for Continuous Spanish in the Wild David Gimeno-Gómez Carlos David Martínez Hinarejos 53 8 0 21 Nov 2023
A Perceptual Shape Loss for Monocular 3D Face Reconstruction Christopher Otto Prashanth Chandran Gaspard Zoss Markus Gross Paulo F. U. Gotardo Derek Bradley 3DH CVBM 74 6 0 30 Oct 2023
AV-CPL: Continuous Pseudo-Labeling for Audio-Visual Speech Recognition Andrew Rouditchenko R. Collobert Tatiana Likhomanenko VLM 86 3 0 29 Sep 2023
Visual Speech Recognition for Languages with Limited Labeled Data using Automatic Labels from Whisper Jeong Hun Yeo Minsu Kim Shinji Watanabe Y. Ro VLM 89 12 0 15 Sep 2023
Let There Be Sound: Reconstructing High Quality Speech from Silent Videos Ji-Hoon Kim Jaehun Kim Joon Son Chung 59 7 0 29 Aug 2023
Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge Minsu Kim Jeong Hun Yeo J. Choi Y. Ro 73 17 0 18 Aug 2023
AKVSR: Audio Knowledge Empowered Visual Speech Recognition by Compressing Audio Knowledge of a Pretrained Model Jeong Hun Yeo Minsu Kim J. Choi Dae Hoe Kim Y. Ro 44 19 0 15 Aug 2023
Lip2Vec: Efficient and Robust Visual Speech Recognition via Latent-to-Latent Visual to Audio Representation Mapping Y. A. D. Djilali Sanath Narayan Haithem Boussaid Ebtesam Almazrouei Merouane Debbah 67 10 0 11 Aug 2023
Audio-visual video-to-speech synthesis with synthesized input audio Triantafyllos Kefalas Yannis Panagakis Maja Pantic VGen DiffM 89 1 0 31 Jul 2023
SparseVSR: Lightweight and Noise Robust Visual Speech Recognition Adriana Fernandez-Lopez Honglie Chen Pingchuan Ma A. Haliassos Stavros Petridis Maja Pantic VLM 69 7 0 10 Jul 2023
Large-scale unsupervised audio pre-training for video-to-speech synthesis Triantafyllos Kefalas Yannis Panagakis Maja Pantic VGen 69 4 0 27 Jun 2023
MIR-GAN: Refining Frame-Level Modality-Invariant Representations with Adversarial Network for Audio-Visual Speech Recognition Yuchen Hu Chen Chen Ruizhe Li Heqing Zou Chng Eng Siong GAN 113 9 0 18 Jun 2023
Hearing Lips in Noise: Universal Viseme-Phoneme Mapping and Transfer for Robust Audio-Visual Speech Recognition Yuchen Hu Ruizhe Li Cheng Chen Chengwei Qin Qiu-shi Zhu Eng Siong Chng 117 5 0 18 Jun 2023