A cappella: Audio-visual Singing Voice Separation

20 April 2021

Papers citing "A cappella: Audio-visual Singing Voice Separation"

33 / 33 papers shown

Title
Face-GCN: A Graph Convolutional Network for 3D Dynamic Face Identification/Recognition Konstantinos Papadopoulos Anis Kacem Abd El Rahman Shabayek Djamila Aouada CVBM 3DH 16 8 0 19 Apr 2021
Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual Speech Separation Jiyoung Lee Soo-Whan Chung Sunok Kim Hong-Goo Kang Kwanghoon Sohn 16 51 0 25 Mar 2021
VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency Ruohan Gao Kristen Grauman CVBM 215 200 0 08 Jan 2021
Deep Learning Based Source Separation Applied To Choir Ensembles Darius Petermann Pritish Chandna Helena Cuesta J. Bonada E. Gómez 27 23 0 17 Aug 2020
Deep Variational Generative Models for Audio-visual Speech Separation V. Nguyen M. Sadeghi Elisa Ricci Xavier Alameda-Pineda SSL DRL 21 9 0 17 Aug 2020
Content based singing voice source separation via strong conditioning using aligned phonemes Gabriel Meseguer-Brocal Geoffroy Peeters 39 9 0 05 Aug 2020
Visually Guided Sound Source Separation using Cascaded Opponent Filter Network Lingyu Zhu Esa Rahtu 68 23 0 04 Jun 2020
FaceFilter: Audio-visual speech separation using still images Soo-Whan Chung Soyeon Choe Joon Son Chung Hong-Goo Kang CVBM 85 66 0 14 May 2020
Music Gesture for Visual Sound Separation Chuang Gan Deng Huang Hang Zhao J. Tenenbaum Antonio Torralba 78 202 0 20 Apr 2020
Conditioned Source Separation for Music Instrument Performances Olga Slizovskaia G. Haro E. Gómez 32 38 0 08 Apr 2020
Meta-learning Extractors for Music Source Separation David Samuel Aditya Ganeshan Jason Naradowsky 37 61 0 17 Feb 2020
Recursive Visual Sound Separation Using Minus-Plus Net Xudong Xu Bo Dai Dahua Lin 51 90 0 30 Aug 2019
Conditioned-U-Net: Introducing a Control Mechanism in the U-Net for Multiple Source Separations Gabriel Meseguer-Brocal Geoffroy Peeters 36 61 0 02 Jul 2019
Speech2Face: Learning the Face Behind a Voice Tae-Hyun Oh Tali Dekel Changil Kim Inbar Mosseri William T. Freeman Michael Rubinstein Wojciech Matusik SSL CVBM 92 163 0 23 May 2019
Co-Separating Sounds of Visual Objects Ruohan Gao Kristen Grauman 90 208 0 16 Apr 2019
The Sound of Motions Hang Zhao Chuang Gan Wei-Chiu Ma Antonio Torralba 42 252 0 11 Apr 2019
Time Domain Audio Visual Speech Separation Jian Wu Yong-mei Xu Shi-Xiong Zhang Lianwu Chen Meng Yu Lei Xie Dong Yu 45 116 0 07 Apr 2019
Face Landmark-based Speaker-Independent Audio-Visual Speech Enhancement in Multi-Talker Environments Yufei Wang Luca Pasa Lantao Yu Rohit Singh Luciano Fadiga L. Joppa CVBM 34 60 0 06 Nov 2018
End-to-End Sound Source Separation Conditioned On Instrument Labels Olga Slizovskaia Leo Kim G. Haro Emilia Gómez 18 32 0 05 Nov 2018
Wave-U-Net: A Multi-Scale Neural Network for End-to-End Audio Source Separation Daniel Stoller Sebastian Ewert S. Dixon AI4TS 111 595 0 08 Jun 2018
On Learning Associations of Faces and Voices Changil Kim Hijung Valentina Shin Tae-Hyun Oh Alexandre Kaspar Mohamed A. Elgharib Wojciech Matusik CVBM 21 83 0 15 May 2018
MMDenseLSTM: An efficient combination of convolutional and recurrent neural networks for audio source separation Naoya Takahashi Nabarun Goswami Yuki Mitsufuji 55 143 0 07 May 2018
The Conversation: Deep Audio-Visual Speech Enhancement Triantafyllos Afouras Joon Son Chung Andrew Zisserman 50 360 0 11 Apr 2018
Audio-Visual Scene Analysis with Self-Supervised Multisensory Features Andrew Owens Alexei A. Efros SSL 63 747 0 10 Apr 2018
The Sound of Pixels Hang Zhao Chuang Gan Andrew Rouditchenko Carl Vondrick Josh H. McDermott Antonio Torralba VLM 44 532 0 09 Apr 2018
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition Sijie Yan Yuanjun Xiong Dahua Lin GNN 179 4,124 0 23 Jan 2018
A Closer Look at Spatiotemporal Convolutions for Action Recognition Du Tran Heng Wang Lorenzo Torresani Jamie Ray Yann LeCun Manohar Paluri 170 3,007 0 30 Nov 2017
VGGFace2: A dataset for recognising faces across pose and age Qiong Cao Li Shen Weidi Xie Omkar M. Parkhi Andrew Zisserman CVBM 58 2,617 0 23 Oct 2017
The Kinetics Human Action Video Dataset W. Kay João Carreira Karen Simonyan Brian Zhang Chloe Hillier ... Tim Green T. Back Apostol Natsev Mustafa Suleyman Andrew Zisserman 182 3,771 0 19 May 2017
Towards Estimating the Upper Bound of Visual-Speech Recognition: The Visual Lip-Reading Feasibility Database Adriana Fernandez-Lopez Oriol Martínez Federico Sukno 34 38 0 26 Apr 2017
Synthesizing Normalized Faces from Facial Identity Features Forrester Cole David Belanger Dilip Krishnan Aaron Sarna Inbar Mosseri William T. Freeman 3DH CVBM 53 141 0 17 Jan 2017
U-Net: Convolutional Networks for Biomedical Image Segmentation Olaf Ronneberger Philipp Fischer Thomas Brox SSeg 3DV 865 76,547 0 18 May 2015
FaceNet: A Unified Embedding for Face Recognition and Clustering Florian Schroff Dmitry Kalenichenko James Philbin 3DH 222 13,079 0 12 Mar 2015