Title
Comprehensive Layer-wise Analysis of SSL Models for Audio Deepfake Detection Yassine El Kheir Youness Samih Suraj Maharjan Tim Polzehl Sebastian Möller 138 1 0 05 Feb 2025
MLAAD: The Multi-Language Audio Anti-Spoofing Dataset Nicolas Müller Piotr Kawa Wei Herng Choong Edresson Casanova Eren Golge Thorsten Muller P. Syga Philip Sperl Konstantin Böttinger 68 40 0 17 Jan 2024
UniAudio: An Audio Foundation Model Toward Universal Audio Generation Dongchao Yang Jinchuan Tian Xuejiao Tan Rongjie Huang Songxiang Liu ... Jiang Bian Xixin Wu Zhou Zhao Shinji Watanabe Helen M. Meng CVBM AuLLM 79 127 0 01 Oct 2023
Qwen Technical Report Jinze Bai Shuai Bai Yunfei Chu Zeyu Cui Kai Dang ... Zhenru Zhang Chang Zhou Jingren Zhou Xiaohuan Zhou Tianhang Zhu OSLM 259 1,816 0 28 Sep 2023
High-Fidelity Audio Compression with Improved RVQGAN Rithesh Kumar Prem Seetharaman Alejandro Luebs I. Kumar Kundan Kumar 91 326 0 11 Jun 2023
MusicLM: Generating Music From Text A. Agostinelli Timo I. Denk Zalan Borsos Jesse Engel Mauro Verzetti ... Adam Roberts Marco Tagliasacchi Matthew Sharifi Neil Zeghidour Christian Frank MGen 135 444 0 26 Jan 2023
ASVspoof 2021: Towards Spoofed and Deepfake Speech Detection in the Wild Xuechen Liu Xin Wang Md. Sahidullah J. Patino Héctor Delgado ... Massimiliano Todisco Junichi Yamagishi Nicholas W. D. Evans A. Nautsch Kong Aik Lee 89 181 0 05 Oct 2022
AudioGen: Textually Guided Audio Generation Felix Kreuk Gabriel Synnaeve Adam Polyak Uriel Singer Alexandre Défossez Jade Copet Devi Parikh Yaniv Taigman Yossi Adi DiffM 79 308 0 30 Sep 2022
AudioLM: a Language Modeling Approach to Audio Generation Zalan Borsos Raphaël Marinier Damien Vincent Eugene Kharitonov Olivier Pietquin ... Dominik Roblek O. Teboul David Grangier Marco Tagliasacchi Neil Zeghidour AuLLM 149 606 0 07 Sep 2022
CFAD: A Chinese Dataset for Fake Audio Detection Haoxin Ma Jiangyan Yi Chenglong Wang Xin Yan J. Tao Tao Wang Shiming Wang Ruibo Fu 48 29 0 12 Jul 2022
NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality Xu Tan Jiawei Chen Haohe Liu Jian Cong Chen Zhang ... Lei He Frank Soong Tao Qin Sheng Zhao Tie-Yan Liu 97 220 0 09 May 2022
Anti-Spoofing Using Transfer Learning with Variational Information Bottleneck Youngsik Eom Yeonghyeon Lee Ji Sub Um Hoi-Rim Kim 88 26 0 04 Apr 2022
Does Audio Deepfake Detection Generalize? Nicolas Müller Pavel Czempin Franziska Dieckmann Adam Froghyar Konstantin Böttinger 75 150 0 30 Mar 2022
ADD 2022: the First Audio Deep Synthesis Detection Challenge Jiangyan Yi Ruibo Fu J. Tao Shuai Nie Haoxin Ma ... Le Xu Zhengqi Wen Haizhou Li Zheng Lian Bin Liu 55 183 0 17 Feb 2022
XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale Arun Babu Changhan Wang Andros Tjandra Kushal Lakhotia Qiantong Xu ... Yatharth Saraf J. Pino Alexei Baevski Alexis Conneau Michael Auli SSL 99 700 0 17 Nov 2021
WaveFake: A Data Set to Facilitate Audio Deepfake Detection Joel Frank Lea Schonherr DiffM 180 128 0 04 Nov 2021
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing Sanyuan Chen Chengyi Wang Zhengyang Chen Yu-Huan Wu Shujie Liu ... Yao Qian Jian Wu Micheal Zeng Xiangzhan Yu Furu Wei SSL 242 1,857 0 26 Oct 2021
AASIST: Audio Anti-Spoofing using Integrated Spectro-Temporal Graph Attention Networks Jee-weon Jung Hee-Soo Heo Hemlata Tak Hye-jin Shim Joon Son Chung Bong-Jin Lee Ha-Jin Yu Nicholas W. D. Evans 195 304 0 04 Oct 2021
W2v-BERT: Combining Contrastive Learning and Masked Language Modeling for Self-Supervised Speech Pre-Training Yu-An Chung Yu Zhang Wei Han Chung-Cheng Chiu James Qin Ruoming Pang Yonghui Wu SSL VLM 54 427 0 07 Aug 2021
HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units Wei-Ning Hsu Benjamin Bolte Yao-Hung Hubert Tsai Kushal Lakhotia Ruslan Salakhutdinov Abdel-rahman Mohamed SSL 171 2,949 0 14 Jun 2021
Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech Jaehyeon Kim Jungil Kong Juhee Son DRL 119 884 0 11 Jun 2021
Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech Vadim Popov Ivan Vovk Vladimir Gogoryan Tasnima Sadekova Mikhail Kudinov DiffM 97 533 0 13 May 2021
DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism Jinglin Liu Chengxi Li Yi Ren Feiyang Chen Zhou Zhao DiffM 92 265 0 06 May 2021
ASAM: Adaptive Sharpness-Aware Minimization for Scale-Invariant Learning of Deep Neural Networks Jungmin Kwon Jeongseop Kim Hyunseong Park I. Choi 91 290 0 23 Feb 2021
ASVspoof 2019: spoofing countermeasures for the detection of synthesized, converted and replayed speech A. Nautsch Xin Wang Nicholas W. D. Evans Tomi Kinnunen Ville Vestman Massimiliano Todisco Héctor Delgado Md. Sahidullah Junichi Yamagishi Kong Aik Lee 153 148 0 11 Feb 2021
HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis Jungil Kong Jaehyeon Kim Jaekyoung Bae 177 1,931 0 12 Oct 2020
DiffWave: A Versatile Diffusion Model for Audio Synthesis Zhifeng Kong Ming-Yu Liu Jiaji Huang Kexin Zhao Bryan Catanzaro DiffM BDL 152 1,457 0 21 Sep 2020
HiFi-GAN: High-Fidelity Denoising and Dereverberation Based on Speech Deep Features in Adversarial Networks Jiaqi Su Zeyu Jin Adam Finkelstein 65 139 0 10 Jun 2020
FastSpeech 2: Fast and High-Quality End-to-End Text to Speech Yi Ren Chenxu Hu Xu Tan Tao Qin Sheng Zhao Zhou Zhao Tie-Yan Liu 105 1,396 0 08 Jun 2020
Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search Jaehyeon Kim Sungwon Kim Jungil Kong Sungroh Yoon 91 491 0 22 May 2020
Conformer: Convolution-augmented Transformer for Speech Recognition Anmol Gulati James Qin Chung-Cheng Chiu Niki Parmar Yu Zhang ... Wei Han Shibo Wang Zhengdong Zhang Yonghui Wu Ruoming Pang 223 3,131 0 16 May 2020
Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram Ryuichi Yamamoto Eunwoo Song Jae-Min Kim 56 818 0 25 Oct 2019
STC Antispoofing Systems for the ASVspoof2019 Challenge G. Lavrentyeva Sergey Novoselov Andzhukaev Tseren Marina Volkova Artem Gorlanov Alexander Kozlov 89 247 0 11 Apr 2019
LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech Heiga Zen Viet Dang R. Clark Yu Zhang Ron J. Weiss Ye Jia Zhiwen Chen Yonghui Wu 104 954 0 05 Apr 2019
WaveGlow: A Flow-based Generative Network for Speech Synthesis R. Prenger Rafael Valle Bryan Catanzaro 151 1,032 0 31 Oct 2018
Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions Jonathan Shen Ruoming Pang Ron J. Weiss M. Schuster Navdeep Jaitly ... Yuxuan Wang RJ Skerry-Ryan Rif A. Saurous Yannis Agiomyrgiannakis Yonghui Wu 79 2,697 0 16 Dec 2017
Parallel WaveNet: Fast High-Fidelity Speech Synthesis Aaron van den Oord Yazhe Li Igor Babuschkin Karen Simonyan Oriol Vinyals ... Alex Graves Helen King T. Walters Dan Belov Demis Hassabis 210 858 0 28 Nov 2017
Neural Discrete Representation Learning Aaron van den Oord Oriol Vinyals Koray Kavukcuoglu BDL SSL OCL 226 5,008 0 02 Nov 2017
WaveNet: A Generative Model for Raw Audio Aaron van den Oord Sander Dieleman Heiga Zen Karen Simonyan Oriol Vinyals Alex Graves Nal Kalchbrenner A. Senior Koray Kavukcuoglu DiffM 406 7,399 0 12 Sep 2016