Title
BERSting at the Screams: A Benchmark for Distanced, Emotional and Shouted Speech Recognition Paige Tuttosi Mantaj Dhillon Luna Sang Shane Eastwood Poorvi Bhatia Quang Minh Dinh Avni Kapoor Yewon Jin Angelica Lim 26 0 0 30 Apr 2025
Circinus: Efficient Query Planner for Compound ML Serving Banruo Liu Wei-Yu Lin Minghao Fang Yihan Jiang Fan Lai LRM 34 0 0 23 Apr 2025
Prototype and Instance Contrastive Learning for Unsupervised Domain Adaptation in Speaker Verification Wen Huang Bing Han Zhengyang Chen Shuai Wang Yanmin Qian VLM SSL 24 0 0 22 Oct 2024
Overview of Speaker Modeling and Its Applications: From the Lens of Deep Speaker Representation Learning Shuai Wang Zheng-Shou Chen Kong Aik Lee Yan-min Qian Haizhou Li 39 4 0 21 Jul 2024
MR-RawNet: Speaker verification system with multiple temporal resolutions for variable duration utterances using raw waveforms Seung-bin Kim Chan-yeong Lim Jungwoo Heo Ju-ho Kim Hyun-Seo Shin Kyo-Won Koo Ha-Jin Yu 52 0 0 11 Jun 2024
Self-Supervised Speech Quality Estimation and Enhancement Using Only Clean Speech Szu-Wei Fu Kuo-Hsuan Hung Yu Tsao Yu-Chiang Frank Wang SSL 19 11 0 26 Feb 2024
NOTSOFAR-1 Challenge: New Datasets, Baseline, and Tasks for Distant Meeting Transcription Alon Vinnikov Amir Ivry Aviv Hurvitz Igor Abramovski S. Koubi ... S. Sivasankaran Yifan Gong Min Tang Huaming Wang Eyal Krupka 33 20 0 16 Jan 2024
Audio compression-assisted feature extraction for voice replay attack detection Xiangyu Shi Yuhao Luo Li Wang Haorui He Hao Li Lei Wang Zhizheng Wu 20 0 0 09 Oct 2023
Rethinking Session Variability: Leveraging Session Embeddings for Session Robustness in Speaker Verification Hee-Soo Heo Ki-hyun Nam Bong-Jin Lee Youngki Kwon Min-Ji Lee You Jin Kim Joon Son Chung 26 1 0 26 Sep 2023
Speech enhancement with frequency domain auto-regressive modeling Anurenjan Purushothaman Debottam Dutta Rohit Kumar Sriram Ganapathy 17 2 0 24 Sep 2023
A Multiscale Autoencoder (MSAE) Framework for End-to-End Neural Network Speech Enhancement Bengt J. Borgström M. Brandstein 11 2 0 21 Sep 2023
Diff-SV: A Unified Hierarchical Framework for Noise-Robust Speaker Verification Using Score-Based Diffusion Probabilistic Models Ju-ho Kim Ju-Sung Heo Hyun-Seo Shin Chanmann Lim Ha-Jin Yu DiffM 11 2 0 14 Sep 2023
Analysis of XLS-R for Speech Quality Assessment Bastiaan Tamm Rik Vandenberghe Hugo Van hamme 24 3 0 23 Aug 2023
The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple Devices in Diverse Scenarios Samuele Cornell Matthew Wiesner Shinji Watanabe Desh Raj Xuankai Chang ... Matthew Maciejewski Yoshiki Masuyama Zhong-Qiu Wang S. Squartini Sanjeev Khudanpur 24 51 0 23 Jun 2023
AircraftVerse: A Large-Scale Multimodal Dataset of Aerial Vehicle Designs Adam D. Cobb Anirban Roy Daniel Elenius F. M. Heim Brian Swenson ... Theodore Bapty Joseph Hite K. Ramani Christopher McComb Susmit Jha 20 7 0 08 Jun 2023
RescueSpeech: A German Corpus for Speech Recognition in Search and Rescue Domain Sangeet Sagar Mirco Ravanelli B. Kiefer Ivana Kruijff Korbayova Josef van Genabith 19 1 0 06 Jun 2023
Synthetic Wave-Geometric Impulse Responses for Improved Speech Dereverberation R. Aralikatti Zhenyu Tang Tianyi Zhou 18 2 0 10 Dec 2022
Large-scale learning of generalised representations for speaker recognition Jee-weon Jung Hee-Soo Heo Bong-Jin Lee Jaesong Lee Hye-jin Shim Youngki Kwon Joon Son Chung Shinji Watanabe CVBM 23 6 0 20 Oct 2022
Pre-trained Speech Representations as Feature Extractors for Speech Quality Assessment in Online Conferencing Applications Bastiaan Tamm Helena Balabin Rik Vandenberghe Hugo Van hamme 36 9 0 01 Oct 2022
pMCT: Patched Multi-Condition Training for Robust Speech Recognition Pablo Peso Parada A. Dobrowolska Karthikeyan P. Saravanan Mete Ozay 37 6 0 11 Jul 2022
Extended U-Net for Speaker Verification in Noisy Environments Ju-ho Kim Ju-Sung Heo Hye-jin Shim Ha-Jin Yu 19 15 0 27 Jun 2022
MESH2IR: Neural Acoustic Impulse Response Generator for Complex 3D Scenes Anton Ratnarajah Zhenyu Tang R. Aralikatti Tianyi Zhou AI4CE 20 35 0 18 May 2022
GWA: A Large High-Quality Acoustic Dataset for Audio Processing Zhenyu Tang R. Aralikatti Anton Ratnarajah Tianyi Zhou 29 31 0 04 Apr 2022
ConferencingSpeech 2022 Challenge: Non-intrusive Objective Speech Quality Assessment (NISQA) Challenge for Online Conferencing Applications Gaoxiong Yi Wei Xiao Yiming Xiao Babak Naderi Sebastian Möller ... Z. Zhang Donald Williamson Fei Chen Fuzheng Yang Shidong Shang 29 46 0 30 Mar 2022
A comparison of streaming models and data augmentation methods for robust speech recognition Jiyeon Kim Mehul Kumar Dhananjaya N. Gowda Abhinav Garg Chanwoo Kim 23 5 0 19 Nov 2021
MultiSV: Dataset for Far-Field Multi-Channel Speaker Verification Ladislav Mošner Oldrich Plchot L. Burget J. Černocký 24 7 0 11 Nov 2021
A study of the robustness of raw waveform based speaker embeddings under mismatched conditions Ge Zhu Frank Cwitkowitz Z. Duan 22 2 0 08 Oct 2021
Parameterized Channel Normalization for Far-field Deep Speaker Verification Xuechen Liu Md. Sahidullah Tomi Kinnunen 10 2 0 24 Sep 2021
Dereverberation of Autoregressive Envelopes for Far-field Speech Recognition Anurenjan Purushothaman Anirudh Sreeram Rohit Kumar Sriram Ganapathy 13 7 0 12 Aug 2021
Improving Reverberant Speech Separation with Multi-stage Training and Curriculum Learning R. Aralikatti Anton Ratnarajah Zhenyu Tang Tianyi Zhou 8 2 0 19 Jul 2021
Learning Audio-Visual Dereverberation Changan Chen Wei-Ju Sun David Harwath Kristen Grauman 23 31 0 14 Jun 2021
Diarization of Legal Proceedings. Identifying and Transcribing Judicial Speech from Recorded Court Audio Jeffrey Tumminia Amanda Kuznecov Sophia Tsilerides Ilana Weinstein Brian McFee M. Picheny A. Kaufman 29 1 0 03 Apr 2021
INTERSPEECH 2021 ConferencingSpeech Challenge: Towards Far-field Multi-Channel Speech Enhancement for Video Conferencing Wei Rao Yihui Fu Yanxin Hu Xin Xu Yvkai Jv ... Shinji Watanabe Zheng-Hua Tan Hui Bu Tao Yu Shidong Shang 31 12 0 02 Apr 2021
TS-RIR: Translated synthetic room impulse responses for speech augmentation Anton Ratnarajah Zhenyu Tang Tianyi Zhou 18 18 0 31 Mar 2021
A Speaker Verification Backend with Robust Performance across Conditions Luciana Ferrer Mitchell McLaren Niko Brummer 14 28 0 02 Feb 2021
DEAAN: Disentangled Embedding and Adversarial Adaptation Network for Robust Speaker Representation Learning Mufan Sang Wei Xia John H. L. Hansen OOD DRL 6 23 0 12 Dec 2020
Small footprint Text-Independent Speaker Verification for Embedded Systems Julien Balian Raffaele Tavarone Mathieu Poumeyrol A. Coucke 11 14 0 03 Nov 2020
Interpretable Representation Learning for Speech and Audio Signals Based on Relevance Weighting Purvi Agrawal Sriram Ganapathy 9 21 0 29 Oct 2020
Cross attentive pooling for speaker verification Seong Min Kye Yoohwan Kwon Joon Son Chung 9 9 0 13 Aug 2020
Compact Speaker Embedding: lrx-vector Munir Georges Jonathan Huang Tobias Bocklet 12 11 0 11 Aug 2020
Designing Neural Speaker Embeddings with Meta Learning Manoj Kumar Tae Jin Park Somer Bishop Shrikanth Narayanan 6 10 0 31 Jul 2020
A Pyramid Recurrent Network for Predicting Crowdsourced Speech-Quality Ratings of Real-World Signals Xuan Dong Donald Williamson 17 20 0 31 Jul 2020
Augmentation adversarial training for self-supervised speaker recognition Jaesung Huh Hee-Soo Heo Jingu Kang Shinji Watanabe Joon Son Chung SSL 48 74 0 23 Jul 2020
Multi-Staged Cross-Lingual Acoustic Model Adaption for Robust Speech Recognition in Real-World Applications -- A Case Study on German Oral History Interviews Michael Gref Oliver Walter C. Schmidt Sven Behnke Joachim Kohler 6 5 0 26 May 2020
The INTERSPEECH 2020 Far-Field Speaker Verification Challenge Xiaoyi Qin Ming Li Hui Bu Wei Rao Rohan Kumar Das Shrikanth Narayanan Haizhou Li 21 47 0 16 May 2020
CHiME-6 Challenge:Tackling Multispeaker Speech Recognition for Unsegmented Recordings Shinji Watanabe Michael I. Mandel Jon Barker Emmanuel Vincent Ashish Arora ... Emmanuel Vincent Shota Horiguchi Naoyuki Kanda Takuya Yoshioka Neville Ryant 20 296 0 20 Apr 2020
Deep Speaker Embeddings for Far-Field Speaker Recognition on Short Utterances Aleksei Gusev V. Volokhov Tseren Andzhukaev Sergey Novoselov G. Lavrentyeva ... Anastasia Avdeeva Artem Ivanov Alexander Kozlov Timur Pekhovsky Yuri N. Matveev 24 47 0 14 Feb 2020
An empirical analysis of information encoded in disentangled neural speaker representations Raghuveer Peri Haoqi Li Krishna Somandepalli Arindam Jati Shrikanth Narayanan DRL 21 13 0 10 Feb 2020
Speaker detection in the wild: Lessons learned from JSALT 2019 Leibny Paola García-Perera Jesus Villalba H. Bredin Jun Du Diego Castán ... Wassim Bouaziz Hadrien Titeux Emmanuel Dupoux Kong Aik Lee Najim Dehak 8 29 0 02 Dec 2019
Robust speaker recognition using unsupervised adversarial invariance Raghuveer Peri Monisankha Pal Arindam Jati Krishna Somandepalli Shrikanth Narayanan 8 23 0 03 Nov 2019