Towards Robust Real-time Audio-Visual Speech Enhancement

16 December 2021

Papers citing "Towards Robust Real-time Audio-Visual Speech Enhancement"

17 / 17 papers shown

Title
A cappella: Audio-visual Singing Voice Separation Juan F. Montesinos V. S. Kadandale G. Haro 59 16 0 20 Apr 2021
VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency Ruohan Gao Kristen Grauman CVBM 222 202 0 08 Jan 2021
On the Role of Visual Cues in Audiovisual Speech Enhancement Zakaria Aldeneh Anushree Prasanna Kumar B. Theobald Erik Marchi S. Kajarekar Devang Naik Ahmed Hussen Abdelaziz 115 6 0 25 Apr 2020
Lipreading using Temporal Convolutional Networks Brais Martínez Pingchuan Ma Stavros Petridis Maja Pantic 206 240 0 23 Jan 2020
My lips are concealed: Audio-visual speech enhancement through obstructions Triantafyllos Afouras Joon Son Chung Andrew Zisserman 58 91 0 11 Jul 2019
Deep-Learning-Based Audio-Visual Speech Enhancement in Presence of Lombard Effect Daniel Michelsanti Zheng-Hua Tan S. Sigurðsson Jesper Jensen 53 36 0 29 May 2019
SDR - half-baked or well done? F. Sánchez-Martínez M. Esplà-Gomis Hakan Erdogan J. Hershey 138 1,191 0 06 Nov 2018
DNN driven Speaker Independent Audio-Visual Mask Estimation for Speech Separation M. Gogate Ahsan Adeel R. Marxer Jon Barker Amir Hussain 31 41 0 31 Jul 2018
Lip-Reading Driven Deep Learning Approach for Speech Enhancement Ahsan Adeel M. Gogate Amir Hussain W. Whitmer 55 65 0 31 Jul 2018
The Conversation: Deep Audio-Visual Speech Enhancement Triantafyllos Afouras Joon Son Chung Andrew Zisserman 72 360 0 11 Apr 2018
The fifth 'CHiME' Speech Separation and Recognition Challenge: Dataset, task and baselines Jon Barker Shinji Watanabe Emmanuel Vincent J. Trmal 53 681 0 28 Mar 2018
Exploring Speech Enhancement with Generative Adversarial Networks for Robust Speech Recognition Chris Donahue Yue Liu Rohit Prabhavalkar 54 200 0 15 Nov 2017
Audio-Visual Speech Enhancement Using Multimodal Deep Convolutional Neural Networks Jen-Cheng Hou Syu-Siang Wang Ying-Hui Lai Yu Tsao Hsiu-Wen Chang H. Wang 77 198 0 01 Sep 2017
SEGAN: Speech Enhancement Generative Adversarial Network Santiago Pascual Antonio Bonafonte Joan Serrà GAN 76 1,143 0 28 Mar 2017
Image-to-Image Translation with Conditional Adversarial Networks Phillip Isola Jun-Yan Zhu Tinghui Zhou Alexei A. Efros SSeg 308 19,612 0 21 Nov 2016
Resnet in Resnet: Generalizing Residual Architectures S. Targ Diogo Almeida Kevin Lyman SSeg 75 826 0 25 Mar 2016
MUSAN: A Music, Speech, and Noise Corpus David Snyder Guoguo Chen Daniel Povey 69 1,346 0 28 Oct 2015