Face Landmark-based Speaker-Independent Audio-Visual Speech Enhancement in Multi-Talker Environments

6 November 2018

Papers citing "Face Landmark-based Speaker-Independent Audio-Visual Speech Enhancement in Multi-Talker Environments"

26 / 26 papers shown

Title
SoundLoc3D: Invisible 3D Sound Source Localization and Classification Using a Multimodal RGB-D Acoustic Camera Yuhang He Sangyun Shin Anoop Cherian Niki Trigoni Andrew Markham 88 0 0 31 Dec 2024
Sequence-to-Sequence Multi-Modal Speech In-Painting Mahsa Kadkhodaei Elyaderani S. Shirani 14 1 0 03 Jun 2024
Robust Multi-Modal Speech In-Painting: A Sequence-to-Sequence Approach Mahsa Kadkhodaei Elyaderani Shahram Shirani 43 0 0 02 Jun 2024
Look Once to Hear: Target Speech Hearing with Noisy Examples Bandhav Veluri Malek Itani Tuochao Chen Takuya Yoshioka Shyamnath Gollakota 46 14 0 10 May 2024
Landmark-Guided Cross-Speaker Lip Reading with Mutual Information Regularization Linzhi Wu Xingyu Zhang Yakun Zhang Changyan Zheng Tiejun Liu Liang Xie Ye Yan Erwei Yin 35 1 0 24 Mar 2024
Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation and Recognition Guinan Li Jiajun Deng Mengzhe Geng Zengrui Jin Tianzi Wang Shujie Hu Mingyu Cui Helen M. Meng Xunying Liu 37 10 0 06 Jul 2023
Visually-Guided Sound Source Separation with Audio-Visual Predictive Coding Zengjie Song Zhaoxiang Zhang 30 1 0 19 Jun 2023
Neural Target Speech Extraction: An Overview Kateřina Žmolíková Marc Delcroix Tsubasa Ochiai K. Kinoshita JanHonza'' vCernocký Dong Yu 23 86 0 31 Jan 2023
Online Video Instance Segmentation via Robust Context Fusion Xiang Li Jinglu Wang Xiaohao Xu Bhiksha Raj Yan Lu 43 5 0 12 Jul 2022
VoViT: Low Latency Graph-based Audio-Visual Voice Separation Transformer Juan F. Montesinos V. S. Kadandale G. Haro ViT 23 19 0 08 Mar 2022
$Look\&Listen: Multi-Modal Correlation Learning for Active Speaker Detection and Speech Enhancement$ Look\&Listen: Multi-Modal Correlation Learning for Active Speaker Detection and Speech Enhancement Jun Xiong Yu Zhou Peng Zhang Lei Xie Wei Huang Yufei Zha 33 20 0 04 Mar 2022
Binaural Audio Generation via Multi-task Learning Sijia Li Shiguang Liu Tianyi Zhou 13 12 0 02 Sep 2021
A cappella: Audio-visual Singing Voice Separation Juan F. Montesinos V. S. Kadandale G. Haro 40 16 0 20 Apr 2021
Effective Low-Cost Time-Domain Audio Separation Using Globally Attentive Locally Recurrent Networks Max W. Y. Lam Jun Wang Dan Su Dong Yu 43 29 0 13 Jan 2021
ACE-Net: Fine-Level Face Alignment through Anchors and Contours Estimation Jihua Huang Amir Tamrakar CVBM 3DH 16 5 0 02 Dec 2020
Audio-visual Speech Separation with Adversarially Disentangled Visual Representation Peng Zhang Jiaming Xu Jing Shi Yunzhe Hao Bo Xu 157 5 0 29 Nov 2020
An Empirical Study of Visual Features for DNN based Audio-Visual Speech Enhancement in Multi-talker Environments Shrishti Saha Shetu Soumitro Chakrabarty Emanuel Habets 12 2 0 09 Nov 2020
Audio-Visual Speech Inpainting with Deep Learning Giovanni Morrone Daniel Michelsanti Zheng-Hua Tan Jesper Jensen 9 26 0 09 Oct 2020
Deep Variational Generative Models for Audio-visual Speech Separation V. Nguyen M. Sadeghi Elisa Ricci Xavier Alameda-Pineda SSL DRL 8 9 0 17 Aug 2020
CSLNSpeech: solving extended speech separation problem with the help of Chinese sign language Jiasong Wu Xuan Li Taotao Li Fanman Meng Youyong Kong Guanyu Yang L. Senhadji Huazhong Shu CVBM 27 0 0 21 Jul 2020
SE-MelGAN -- Speaker Agnostic Rapid Speech Enhancement Luka Chkhetiani Levan Bejanidze 25 1 0 13 Jun 2020
Neural Spatio-Temporal Beamformer for Target Speech Separation Yong-mei Xu Meng Yu Shi-Xiong Zhang Lianwu Chen Chao Weng Jianming Liu Dong Yu 26 41 0 08 May 2020
Deep Audio-Visual Learning: A Survey Hao Zhu Mandi Luo Rui Wang A. Zheng Ran He 31 156 0 14 Jan 2020
Audio-Visual Target Speaker Enhancement on Multi-Talker Environment using Event-Driven Cameras A. Arriandiaga Giovanni Morrone Luca Pasa Leonardo Badino Chiara Bartolozzi 11 1 0 05 Dec 2019
Deep-Learning-Based Audio-Visual Speech Enhancement in Presence of Lombard Effect Daniel Michelsanti Zheng-Hua Tan S. Sigurðsson Jesper Jensen 8 36 0 29 May 2019
An Analysis of Speech Enhancement and Recognition Losses in Limited Resources Multi-talker Single Channel Audio-Visual ASR Luca Pasa Giovanni Morrone Leonardo Badino 6 2 0 16 Apr 2019