Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder

14 August 2023

Papers citing "Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder"

4 / 4 papers shown

Title
An audio-quality-based multi-strategy approach for target speaker extraction in the MISP 2023 Challenge Ru Han Xiaopeng Yan Weiming Xu Pengcheng Guo Jiayao Sun He Wang Quan Lu Ning Jiang Lei Xie 35 1 0 08 Jan 2024
End-to-end Audio-visual Speech Recognition with Conformers Pingchuan Ma Stavros Petridis M. Pantic 84 225 0 12 Feb 2021
Lipreading using Temporal Convolutional Networks Brais Martínez Pingchuan Ma Stavros Petridis M. Pantic 168 239 0 23 Jan 2020
Lip Reading Sentences in the Wild Joon Son Chung A. Senior Oriol Vinyals Andrew Zisserman 185 784 0 16 Nov 2016