Muse: Multi-modal target speaker extraction with visual cues

Muse: Multi-modal target speaker extraction with visual cues

15 October 2020

Haizhou Li

Papers citing "Muse: Multi-modal target speaker extraction with visual cues"

13 / 13 papers shown

Title
CoGenAV: Versatile Audio-Visual Representation Learning via Contrastive-Generative Synchronization Detao Bai Zhiheng Ma Xihan Wei Liefeng Bo 216 0 0 06 May 2025
Target Speaker Extraction through Comparing Noisy Positive and Negative Audio Enrollments Shitong Xu Yiyuan Yang Niki Trigoni Andrew Markham 44 0 0 23 Feb 2025
Geometry-Constrained EEG Channel Selection for Brain-Assisted Speech Enhancement Keying Zuo Qingtian Xu Jie Zhang Zhenhua Ling 41 0 0 19 Sep 2024
Audio-Visual Target Speaker Extraction with Reverse Selective Auditory Attention Ruijie Tao Xinyuan Qian Yidi Jiang Junjie Li Jiadong Wang Haizhou Li 39 1 0 29 Apr 2024
TDFNet: An Efficient Audio-Visual Speech Separation Model with Top-down Fusion Samuel Pegg Kai Li Xiaolin Hu 41 1 0 25 Jan 2024
Audio-visual video-to-speech synthesis with synthesized input audio Triantafyllos Kefalas Yannis Panagakis Maja Pantic VGen DiffM 38 1 0 31 Jul 2023
AV-SepFormer: Cross-Attention SepFormer for Audio-Visual Target Speaker Extraction Jiuxin Lin X. Cai Heinrich Dinkel Jun Chen Zhiyong Yan Yongqing Wang Junbo Zhang Zhiyong Wu Yujun Wang Helen M. Meng 29 21 0 25 Jun 2023
A Hybrid Continuity Loss to Reduce Over-Suppression for Time-domain Target Speaker Extraction Zexu Pan Meng Ge Haizhou Li 31 17 0 31 Mar 2022
Speaker Extraction with Co-Speech Gestures Cue Zexu Pan Xinyuan Qian Haizhou Li SLR 34 27 0 31 Mar 2022
VisualTTS: TTS with Accurate Lip-Speech Synchronization for Automatic Voice Over Junchen Lu Berrak Sisman Rui Liu Mingyang Zhang Haizhou Li DiffM 41 19 0 07 Oct 2021
USEV: Universal Speaker Extraction with Visual Cue Zexu Pan Meng Ge Haizhou Li 39 41 0 30 Sep 2021
Is Someone Speaking? Exploring Long-term Temporal Features for Audio-visual Active Speaker Detection Ruijie Tao Zexu Pan Rohan Kumar Das Xinyuan Qian Mike Zheng Shou Haizhou Li 27 176 0 14 Jul 2021
VoxCeleb2: Deep Speaker Recognition Joon Son Chung Arsha Nagrani Andrew Zisserman 266 2,242 0 14 Jun 2018