Title
Bilingual Dual-Head Deep Model for Parkinson's Disease Detection from Speech Moreno La Quatra Juan Rafael Orozco-Arroyave Marco Sabato Siniscalchi 45 0 0 13 Mar 2025
From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM Kshitij Ambilduke Ben Peters Sonal Sannigrahi Anil Keshwani Tsz Kin Lam Bruno Martins Marcely Zanon Boito André F. T. Martins 52 0 0 13 Mar 2025
Self-Supervised Models for Phoneme Recognition: Applications in Children's Speech for Reading Learning Lucas Block Medin Thomas Pellegrini Lucile Gelin SSL 63 1 0 06 Mar 2025
Scaling Rich Style-Prompted Text-to-Speech Datasets Anuj Diwan Zhisheng Zheng David F. Harwath Eunsol Choi CLIP VLM 75 0 0 06 Mar 2025
Qieemo: Speech Is All You Need in the Emotion Recognition in Conversations Jinming Chen Jingyi Fang Yuanzhong Zheng Yaoxuan Wang Haojun Fei 47 0 0 05 Mar 2025
KeyFace: Expressive Audio-Driven Facial Animation for Long Sequences via KeyFrame Interpolation Antoni Bigata Michał Stypułkowski Rodrigo Mira Stella Bounareli Konstantinos Vougioukas Zoe Landgraf Nikita Drobyshev Maciej Ziȩba Stavros Petridis M. Pantic DiffM VGen 65 2 0 03 Mar 2025
UniWav: Towards Unified Pre-training for Speech Representation Learning and Generation Alexander H. Liu Sang-gil Lee Chao-Han Huck Yang Yuan Gong Yu-Chun Wang James Glass Rafael Valle Bryan Catanzaro SSL 52 0 0 02 Mar 2025
LLaSE-G1: Incentivizing Generalization Capability for LLaMA-based Speech Enhancement Boyi Kang Xinfa Zhu Zihan Zhang Zhen Ye Mingshuai Liu ... Jun Chen Longshuai Xiao Chao Weng Wei Xue Lei Xie AuLLM 55 3 0 01 Mar 2025
DIN-CTS: Low-Complexity Depthwise-Inception Neural Network with Contrastive Training Strategy for Deepfake Speech Detection L. D. Pham Dat Tran Florian Skopik Alexander Schindler Silvia Poletti Fischinger David Martin Boyer Martin Boyer 51 1 0 27 Feb 2025
Residual Speech Embeddings for Tone Classification: Removing Linguistic Content to Enhance Paralinguistic Analysis Hamdan Al Ahbabi Gautier Marti Saeed AlMarri Ibrahim Elfadel 59 0 0 26 Feb 2025
Baichuan-Audio: A Unified Framework for End-to-End Speech Interaction Tianpeng Li Jiaheng Liu Tao Zhang Yuanbo Fang Da Pan ... Guosheng Dong Jianhua Xu Haoze Sun Zenan Zhou Weipeng Chen AuLLM 55 3 0 24 Feb 2025
AAD-LLM: Neural Attention-Driven Auditory Scene Understanding Xilin Jiang Sukru Samet Dindar Vishal B. Choudhari Stephan Bickel A. Mehta Guy M McKhann A. Flinker D. Friedman N. Mesgarani 37 2 0 24 Feb 2025
Enhancing Speech Large Language Models with Prompt-Aware Mixture of Audio Encoders Weiqiao Shan Yongqian Li Yuhao Zhang Yingfeng Luo Chen Xu ... Yaojie Lu M. Zhang Hao Yang Tong Xiao Jingbo Zhu AuLLM 72 1 0 24 Feb 2025
voc2vec: A Foundation Model for Non-Verbal Vocalization Alkis Koudounas Moreno La Quatra Marco Sabato Siniscalchi Elena Baralis 46 0 0 22 Feb 2025
How do Multimodal Foundation Models Encode Text and Speech? An Analysis of Cross-Lingual and Cross-Modal Representations Hyunji Lee Danni Liu Supriti Sinhamahapatra Jan Niehues 106 0 0 21 Feb 2025
KAD: No More FAD! An Effective and Efficient Evaluation Metric for Audio Generation Yoonjin Chung Pilsun Eu Junwon Lee Keunwoo Choi Juhan Nam Ben Sangbae Chon EGVM 62 3 0 21 Feb 2025
Soundwave: Less is More for Speech-Text Alignment in LLMs Y. Zhang Zhiheng Liu Fan Bu Ruiyu Zhang Benyou Wang Yiming Li AuLLM SyDa VLM 105 0 0 18 Feb 2025
Efficient Finetuning for Dimensional Speech Emotion Recognition in the Age of Transformers Aneesha Sampath James Tavernor E. Provost 46 0 0 17 Feb 2025
Less is More for Synthetic Speech Detection in the Wild Ashi Garg Zexin Cai Henry Li Xinyuan Leibny Paola García-Perera Kevin Duh Sanjeev Khudanpur Matthew Wiesner Nicholas Andrews 74 0 0 17 Feb 2025
Demographic Attributes Prediction from Speech Using WavLM Embeddings Yuchen Yang Thomas Thebaud Najim Dehak 49 0 0 17 Feb 2025
FELLE: Autoregressive Speech Synthesis with Token-Wise Coarse-to-Fine Flow Matching Hui Wang Shujie Liu Lingwei Meng J. Li Yifan Yang ... Yanqing Liu Haoqin Sun Jiaming Zhou Yan Lu Yong Qin 52 0 0 16 Feb 2025
BrainWavLM: Fine-tuning Speech Representations with Brain Responses to Language Nishitha Vattikonda A. Vaidya Richard Antonello Alexander G. Huth 101 0 0 13 Feb 2025
Do we really have to filter out random noise in pre-training data for language models? Jinghan Ru Yuxin Xie Xianwei Zhuang Yuguo Yin Zhihui Guo Zhiming Liu Qianli Ren Yuexian Zou 83 2 0 10 Feb 2025
Evaluation of Deep Audio Representations for Hearables Fabian Gröger Pascal Baumann Ludovic Amruthalingam Laurent Simon Ruksana Giurda Simone Lionetti 88 0 0 10 Feb 2025
Audio-Visual Representation Learning via Knowledge Distillation from Speech Foundation Models Jing-Xuan Zhang Genshun Wan Jianqing Gao Zhen-Hua Ling 49 0 0 09 Feb 2025
The Role of Prosody in Spoken Question Answering Jie Chi Maureen de Seyssel Natalie Schluter 49 0 0 08 Feb 2025
Afrispeech-Dialog: A Benchmark Dataset for Spontaneous English Conversations in Healthcare and Beyond Mardhiyah Sanni Tassallah Abdullahi Devendra D. Kayande Emmanuel Ayodele Naome A. Etori ... Chibuzor Okocha L. Ismaila Folafunmi Omofoye Boluwatife A. Adewale Tobi Olatunji 103 1 0 06 Feb 2025
Comprehensive Layer-wise Analysis of SSL Models for Audio Deepfake Detection Yassine El Kheir Youness Samih Suraj Maharjan Tim Polzehl Sebastian Möller 73 1 0 05 Feb 2025
Leveraging Broadcast Media Subtitle Transcripts for Automatic Speech Recognition and Subtitling Jakob Poncelet Hugo Van hamme 69 0 0 05 Feb 2025
High-Fidelity Simultaneous Speech-To-Speech Translation Tom Labiausse Laurent Mazaré Edouard Grave P. Pérez Alexandre Défossez Neil Zeghidour 171 0 0 05 Feb 2025
AudioMiXR: Spatial Audio Object Manipulation with 6DoF for Sound Design in Augmented Reality Brandon Woodard Margarita Geleta Joseph J. LaViola Jr. Andrea Fanelli Rhonda Wilson 57 1 0 05 Feb 2025
Emilia: A Large-Scale, Extensive, Multilingual, and Diverse Dataset for Speech Generation Haorui He Zengqiang Shang Chaoren Wang Xuyuan Li Yicheng Gu ... Peiyang Shi Yali Wang Kai Chen Pengyuan Zhang Z. Wu AuLLM 58 4 0 28 Jan 2025
Summary of the NOTSOFAR-1 Challenge: Highlights and Learnings Igor Abramovski Alon Vinnikov Shalev Shaer Naoyuki Kanda Xiaofei Wang Amir Ivry Eyal Krupka 39 0 0 28 Jan 2025
Optimized Self-supervised Training with BEST-RQ for Speech Recognition Ilja Baumann Dominik Wagner K. Riedhammer Tobias Bocklet 72 0 0 28 Jan 2025
Safe Gradient Flow for Bilevel Optimization Sina Sharifi Nazanin Abolfazli E. Y. Hamedani Mahyar Fazlyab 36 1 0 27 Jan 2025
Multi-Task Corrupted Prediction for Learning Robust Audio-Visual Speech Representation Sungnyun Kim Sungwoo Cho Sangmin Bae Kangwook Jang Se-Young Yun SSL 68 1 0 23 Jan 2025
LLM supervised Pre-training for Multimodal Emotion Recognition in Conversations Soumya Dutta Sriram Ganapathy 33 2 0 20 Jan 2025
How Redundant Is the Transformer Stack in Speech Representation Models? Teresa Dorszewski Albert Kjøller Jacobsen Lenka Tětková Lars Kai Hansen 107 0 0 20 Jan 2025
Unsupervised Rhythm and Voice Conversion of Dysarthric to Healthy Speech for ASR Karl El Hajal Enno Hermann Ajinkya Kulkarni Mathew Magimai.-Doss 31 0 0 20 Jan 2025
Target Speaker ASR with Whisper Alexander Polok Dominik Klement Matthew Wiesner Sanjeev Khudanpur J. Černocký L. Burget 99 1 0 17 Jan 2025
SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words Junyi Ao Yuancheng Wang Xiaohai Tian Dekun Chen Jing Zhang Lu Lu Yali Wang Haizhou Li Z. Wu AuLLM 87 17 0 17 Jan 2025
Discrete Speech Unit Extraction via Independent Component Analysis Tomohiko Nakamura Kwanghee Choi Keigo Hojo Yoshiaki Bando Satoru Fukayama Shinji Watanabe 43 0 0 11 Jan 2025
A Survey on Spoken Italian Datasets and Corpora Marco Giordano Claudia Rinaldi 41 0 0 11 Jan 2025
TTS-Transducer: End-to-End Speech Synthesis with Neural Transducer Vladimir Bataev Subhankar Ghosh Vitaly Lavrukhin Jason Chun Lok Li AI4TS 41 0 0 10 Jan 2025
HAAQI-Net: A Non-intrusive Neural Music Audio Quality Assessment Model for Hearing Aids Dyah A. M. G. Wisnu Stefano Rini Ryandhimas E. Zezario Hsin-Min Wang Yu Tsao 57 0 0 10 Jan 2025
Audio-Language Datasets of Scenes and Events: A Survey Gijs Wijngaard Elia Formisano Michele Esposito M. Dumontier 81 2 0 10 Jan 2025
Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection Hsi-Che Lin Yi-Cheng Lin Huang-Cheng Chou Hung-yi Lee 33 0 0 08 Jan 2025
Spectral-Aware Low-Rank Adaptation for Speaker Verification Zhe Li Man-Wai Mak Mert Pilanci Hung-yi Lee Helen Meng 41 0 0 07 Jan 2025
Noise-Robust Target-Speaker Voice Activity Detection Through Self-Supervised Pretraining H. S. Bovbjerg Jan Østergaard Jesper Jensen Zheng-Hua Tan 38 0 0 06 Jan 2025
Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition Ruoyu Zhao Xiantao Jiang Fei Yu Victor C.M. Leung Tao Wang S. Zhang 30 0 0 06 Jan 2025