AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised
Features for Audio-Visual Speech Enhancement

v1v2v3v4 (latest)

AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement

14 September 2023

Chung-Ming Chien

ArXiv (abs)PDF HTML

Papers citing "AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement"

10 / 10 papers shown

Title
Diffusion-based Unsupervised Audio-visual Speech Enhancement Jean-Eudes Ayilo Mostafa Sadeghi Romain Serizel Xavier Alameda-Pineda DiffM 69 0 0 04 Oct 2024
Universal Speech Enhancement with Score-based Diffusion Joan Serrà Santiago Pascual Jordi Pons R. O. Araz D. Scaini DiffM 90 105 0 07 Jun 2022
Learning Audio-Visual Speech Representation by Masked Multimodal Cluster Prediction Bowen Shi Wei-Ning Hsu Kushal Lakhotia Abdel-rahman Mohamed SSL 95 319 0 05 Jan 2022
VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency Ruohan Gao Kristen Grauman CVBM 224 202 0 08 Jan 2021
Denoising Diffusion Implicit Models Jiaming Song Chenlin Meng Stefano Ermon VLM DiffM 283 7,454 0 06 Oct 2020
SDR - half-baked or well done? F. Sánchez-Martínez M. Esplà-Gomis Hakan Erdogan J. Hershey 148 1,202 0 06 Nov 2018
LRS3-TED: a large-scale dataset for visual speech recognition Triantafyllos Afouras Joon Son Chung Andrew Zisserman 64 442 0 03 Sep 2018
SEGAN: Speech Enhancement Generative Adversarial Network Santiago Pascual Antonio Bonafonte Joan Serrà GAN 78 1,146 0 28 Mar 2017
Layer Normalization Jimmy Lei Ba J. Kiros Geoffrey E. Hinton 413 10,526 0 21 Jul 2016
ModDrop: adaptive multi-modal gesture recognition Natalia Neverova Christian Wolf Graham W. Taylor Florian Nebout 100 296 0 31 Dec 2014