Attentive Fusion Enhanced Audio-Visual Encoding for Transformer Based Robust Speech Recognition

6 August 2020

Papers citing "Attentive Fusion Enhanced Audio-Visual Encoding for Transformer Based Robust Speech Recognition"

6 / 6 papers shown

Title
Tailored Design of Audio-Visual Speech Recognition Models using Branchformers David Gimeno-Gómez Carlos David Martínez Hinarejos 174 2 0 09 Jul 2024
Learning Video Temporal Dynamics with Cross-Modal Attention for Robust Audio-Visual Speech Recognition Sungnyun Kim Kangwook Jang Sangmin Bae Hoirin Kim Se-Young Yun 110 3 0 04 Jul 2024
On Robustness to Missing Video for Audiovisual Speech Recognition Oscar Chang Otavio Braga H. Liao Dmitriy Serdyuk Olivier Siohan 101 11 0 13 Dec 2023
Predict-and-Update Network: Audio-Visual Speech Recognition Inspired by Human Speech Perception Jiadong Wang Xinyuan Qian Haizhou Li 68 14 0 05 Sep 2022
Learning Contextually Fused Audio-visual Representations for Audio-visual Speech Recognition Zitian Zhang Jie Zhang Jian-Shu Zhang Ming Wu Xin Fang Lirong Dai SSL 101 10 0 15 Feb 2022
Multi-stream Convolutional Neural Network with Frequency Selection for Robust Speaker Verification Wei Yao Shen Chen Jiamin Cui Yaolin Lou 76 6 0 21 Dec 2020