Multi-Modal Multi-Correlation Learning for Audio-Visual Speech Separation

4 July 2022

Papers citing "Multi-Modal Multi-Correlation Learning for Audio-Visual Speech Separation"

28 / 28 papers shown

Title
The Right to Talk: An Audio-Visual Transformer Approach Thanh-Dat Truong C. Duong T. D. Vu H. Pham Bhiksha Raj Ngan Le Khoa Luu 103 36 0 06 Aug 2021
Move2Hear: Active Audio-Visual Source Separation Sagnik Majumder Ziad Al-Halah Kristen Grauman 56 44 0 15 May 2021
Cyclic Co-Learning of Sounding Object Visual Grounding and Sound Separation Yapeng Tian Di Hu Chenliang Xu ObjD 77 88 0 05 Apr 2021
Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual Speech Separation Jiyoung Lee Soo-Whan Chung Sunok Kim Hong-Goo Kang Kwanghoon Sohn 43 51 0 25 Mar 2021
Audio-Visual Speech Separation Using Cross-Modal Correspondence Loss Naoki Makishima Mana Ihori Akihiko Takashima Tomohiro Tanaka Shota Orihashi Ryo Masumura 54 8 0 02 Mar 2021
VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency Ruohan Gao Kristen Grauman CVBM 227 202 0 08 Jan 2021
Audio-visual Speech Separation with Adversarially Disentangled Visual Representation Peng Zhang Jiaming Xu Jing Shi Yunzhe Hao Bo Xu 372 5 0 29 Nov 2020
Into the Wild with AudioScope: Unsupervised Audio-Visual Separation of On-Screen Sounds Efthymios Tzinis Scott Wisdom A. Jansen Shawn Hershey Tal Remez D. Ellis J. Hershey 79 71 0 02 Nov 2020
Sep-Stereo: Visually Guided Stereophonic Audio Generation by Associating Source Separation Hang Zhou Xudong Xu Dahua Lin Xiaogang Wang Ziwei Liu DiffM 78 83 0 20 Jul 2020
wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations Alexei Baevski Henry Zhou Abdel-rahman Mohamed Michael Auli SSL 295 5,837 0 20 Jun 2020
Visually Guided Sound Source Separation using Cascaded Opponent Filter Network Lingyu Zhu Esa Rahtu 87 23 0 04 Jun 2020
Multimodal Target Speech Separation with Voice and Face References Leyuan Qu C. Weber S. Wermter CVBM 59 19 0 17 May 2020
FaceFilter: Audio-visual speech separation using still images Soo-Whan Chung Soyeon Choe Joon Son Chung Hong-Goo Kang CVBM 112 67 0 14 May 2020
Music Gesture for Visual Sound Separation Chuang Gan Deng Huang Hang Zhao J. Tenenbaum Antonio Torralba 95 205 0 20 Apr 2020
Recursive Visual Sound Separation Using Minus-Plus Net Xudong Xu Bo Dai Dahua Lin 74 91 0 30 Aug 2019
Self-Supervised Audio-Visual Co-Segmentation Andrew Rouditchenko Hang Zhao Chuang Gan Josh H. McDermott Antonio Torralba VLM SSL 62 105 0 18 Apr 2019
Co-Separating Sounds of Visual Objects Ruohan Gao Kristen Grauman 131 210 0 16 Apr 2019
The Sound of Motions Hang Zhao Chuang Gan Wei-Chiu Ma Antonio Torralba 83 254 0 11 Apr 2019
Time Domain Audio Visual Speech Separation Jian Wu Yong-mei Xu Shi-Xiong Zhang Lianwu Chen Meng Yu Lei Xie Dong Yu 76 118 0 07 Apr 2019
SDR - half-baked or well done? F. Sánchez-Martínez M. Esplà-Gomis Hakan Erdogan J. Hershey 153 1,204 0 06 Nov 2018
LRS3-TED: a large-scale dataset for visual speech recognition Triantafyllos Afouras Joon Son Chung Andrew Zisserman 64 445 0 03 Sep 2018
DNN driven Speaker Independent Audio-Visual Mask Estimation for Speech Separation M. Gogate Ahsan Adeel R. Marxer Jon Barker Amir Hussain 61 41 0 31 Jul 2018
ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design Ningning Ma Xiangyu Zhang Haitao Zheng Jian Sun 181 5,006 0 30 Jul 2018
VoxCeleb2: Deep Speaker Recognition Joon Son Chung Arsha Nagrani Andrew Zisserman 356 2,287 0 14 Jun 2018
The Conversation: Deep Audio-Visual Speech Enhancement Triantafyllos Afouras Joon Son Chung Andrew Zisserman 87 360 0 11 Apr 2018
Learning to Separate Object Sounds by Watching Unlabeled Video Ruohan Gao Rogerio Feris Kristen Grauman SSL 65 285 0 05 Apr 2018
Permutation Invariant Training of Deep Models for Speaker-Independent Multi-talker Speech Separation Dong Yu Morten Kolbæk Zheng-Hua Tan Jesper Jensen 103 859 0 01 Jul 2016
Deep clustering: Discriminative embeddings for segmentation and separation J. Hershey Zhuo Chen Jonathan Le Roux Shinji Watanabe 62 1,321 0 18 Aug 2015