Robust Audio-Visual Speech Enhancement: Correcting Misassignments in
Complex Environments with Advanced Post-Processing

v1v2 (latest)

Robust Audio-Visual Speech Enhancement: Correcting Misassignments in Complex Environments with Advanced Post-Processing

22 September 2024

Wenze Ren

YouJin Li

Hsin-Min Wang

Yu Tsao

ArXiv (abs)PDF HTML

Papers citing "Robust Audio-Visual Speech Enhancement: Correcting Misassignments in Complex Environments with Advanced Post-Processing"

12 / 12 papers shown

Title
Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual Active Speaker Detection Xuan-Bo Chen Haibin Wu Helen Meng Hung-yi Lee J. Jang AAML 87 4 0 03 Oct 2022
TF-GridNet: Making Time-Frequency Domain Models Great Again for Monaural Speaker Separation Zhong-Qiu Wang Samuele Cornell Shukjae Choi Younglo Lee Byeonghak Kim Shinji Watanabe 104 103 0 08 Sep 2022
A Hybrid Continuity Loss to Reduce Over-Suppression for Time-domain Target Speaker Extraction Zexu Pan Meng Ge Haizhou Li 63 18 0 31 Mar 2022
VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency Ruohan Gao Kristen Grauman CVBM 224 202 0 08 Jan 2021
Attention is All You Need in Speech Separation Cem Subakan Mirco Ravanelli Samuele Cornell Mirko Bronzi Jianyuan Zhong 95 557 0 25 Oct 2020
DCCRN: Deep Complex Convolution Recurrent Network for Phase-Aware Speech Enhancement Yanxin Hu Yun Liu Shubo Lv Mengtao Xing Shimin Zhang Yihui Fu Jian Wu Bihong Zhang Lei Xie 56 592 0 01 Aug 2020
ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN Based Speaker Verification Brecht Desplanques Jenthe Thienpondt Kris Demuynck 74 1,338 0 14 May 2020
Phase-aware Speech Enhancement with Deep Complex U-Net Hyeong-Seok Choi Jang-Hyun Kim Jaesung Huh A. Kim Jung-Woo Ha Kyogu Lee 60 333 0 07 Mar 2019
Deep Audio-Visual Speech Recognition Triantafyllos Afouras Joon Son Chung A. Senior Oriol Vinyals Andrew Zisserman 95 703 0 06 Sep 2018
mixup: Beyond Empirical Risk Minimization Hongyi Zhang Moustapha Cissé Yann N. Dauphin David Lopez-Paz NoLa 280 9,764 0 25 Oct 2017
Supervised Speech Separation Based on Deep Learning: An Overview DeLiang Wang Jitong Chen SSL 77 1,373 0 24 Aug 2017
FaceNet: A Unified Embedding for Face Recognition and Clustering Florian Schroff Dmitry Kalenichenko James Philbin 3DH 379 13,145 0 12 Mar 2015