Are Music Foundation Models Better at Singing Voice Deepfake Detection?
Far-Better Fuse them with Speech Foundation Models

Are Music Foundation Models Better at Singing Voice Deepfake Detection? Far-Better Fuse them with Speech Foundation Models

21 September 2024

Orchid Chetia Phukan

Swarup Ranjan Behera

Arun Balaji Buduru

Rajesh Sharma

S. R Mahadeva Prasanna

ArXiv (abs)PDF HTML

Papers citing "Are Music Foundation Models Better at Singing Voice Deepfake Detection? Far-Better Fuse them with Speech Foundation Models"

16 / 16 papers shown

Title
Singing Voice Graph Modeling for SingFake Detection Xuanjun Chen Haibin Wu Jyh-Shing Roger Jang Hung-yi Lee 22 11 0 05 Jun 2024
Do Vision and Language Encoders Represent the World Similarly? Mayug Maniparambil Raiymbek Akshulakov Y. A. D. Djilali Sanath Narayan M. Seddik K. Mangalam Noel E. O'Connor VLM 77 13 0 10 Jan 2024
SingFake: Singing Voice Deepfake Detection Yongyi Zang You Zhang Mojtaba Heydari Zhiyao Duan 66 34 0 14 Sep 2023
MAP-Music2Vec: A Simple and Effective Baseline for Self-Supervised Music Audio Representation Learning Yizhi Li Ruibin Yuan Ge Zhang Yi Ma Chenghua Lin ... Haoyu He Emmanouil Benetos Norbert Gyenge Ruibo Liu Jie Fu SSL 74 20 0 05 Dec 2022
SAMO: Speaker Attractor Multi-Center One-Class Learning for Voice Anti-Spoofing Sivan Ding You Zhang Z. Duan 84 28 0 04 Nov 2022
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing Sanyuan Chen Chengyi Wang Zhengyang Chen Yu-Huan Wu Shujie Liu ... Yao Qian Jian Wu Micheal Zeng Xiangzhan Yu Furu Wei SSL 254 1,898 0 26 Oct 2021
VISinger: Variational Inference with Adversarial Learning for End-to-End Singing Voice Synthesis Yongmao Zhang Jian Cong Heyang Xue Lei Xie Pengcheng Zhu Mengxiao Bi 66 77 0 17 Oct 2021
UniSpeech-SAT: Universal Speech Representation Learning with Speaker Aware Pre-Training Sanyuan Chen Yu Wu Chengyi Wang Zhengyang Chen Zhuo Chen ... Jian Wu Yao Qian Furu Wei Jinyu Li Xiangzhan Yu SSL 62 93 0 12 Oct 2021
AASIST: Audio Anti-Spoofing using Integrated Spectro-Temporal Graph Attention Networks Jee-weon Jung Hee-Soo Heo Hemlata Tak Hye-jin Shim Joon Son Chung Bong-Jin Lee Ha-Jin Yu Nicholas W. D. Evans 202 308 0 04 Oct 2021
DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism Jinglin Liu Chengxi Li Yi Ren Feiyang Chen Zhou Zhao DiffM 121 268 0 06 May 2021
Emotion Recognition from Speech Using Wav2vec 2.0 Embeddings L. Pepino Pablo Riera Luciana Ferrer 73 365 0 08 Apr 2021
Do Wide and Deep Networks Learn the Same Things? Uncovering How Neural Network Representations Vary with Width and Depth Thao Nguyen M. Raghu Simon Kornblith OOD 62 282 0 29 Oct 2020
HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis Jiawei Chen Xu Tan Jian Luan Tao Qin Tie-Yan Liu VLM 81 93 0 03 Sep 2020
Unsupervised Cross-Domain Singing Voice Conversion Adam Polyak Lior Wolf Yossi Adi Yaniv Taigman 44 44 0 06 Aug 2020
wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations Alexei Baevski Henry Zhou Abdel-rahman Mohamed Michael Auli SSL 295 5,837 0 20 Jun 2020
Similarity of Neural Network Representations Revisited Simon Kornblith Mohammad Norouzi Honglak Lee Geoffrey E. Hinton 143 1,431 0 01 May 2019