Title
TEDI: Trustworthy and Ethical Dataset Indicators to Analyze and Compare Dataset Documentation Wiebke Hutiri Mircea Cimpoi M. Scheuerman Victoria Matthews Alice Xiang 114 0 0 23 May 2025
StableQuant: Layer Adaptive Post-Training Quantization for Speech Foundation Models Yeona Hong Hyewon Han Woo-Jin Chung Hong-Goo Kang MQ 66 0 0 21 Apr 2025
Universal Speech Token Learning via Low-Bitrate Neural Codec and Pretrained Representations Xue Jiang Xiulian Peng Yuan Zhang Yan Lu SSL 104 1 0 15 Mar 2025
Slamming: Training a Speech Language Model on One GPU in a Day Gallil Maimon Avishai Elmakies Yossi Adi 54 3 0 19 Feb 2025
AudioMiXR: Spatial Audio Object Manipulation with 6DoF for Sound Design in Augmented Reality Brandon Woodard Margarita Geleta Joseph J. LaViola Jr. Andrea Fanelli Rhonda Wilson 84 4 0 05 Feb 2025
SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words Junyi Ao Yuancheng Wang Xiaohai Tian Dekun Chen Jing Zhang Lu Lu Yansen Wang Haizhou Li Zhikai Wu AuLLM 111 20 0 17 Jan 2025
F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching Yushen Chen Zhikang Niu Ziyang Ma Keqi Deng Chunhui Wang Jian Zhao Kai Yu Xie Chen 72 73 0 09 Oct 2024
Recent Advances in Speech Language Models: A Survey Wenqian Cui Dianzhi Yu Xiaoqi Jiao Ziqiao Meng Guangyan Zhang Qichao Wang Yiwen Guo Irwin King AuLLM 82 21 0 01 Oct 2024
WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling Shengpeng Ji Ziyue Jiang Xize Cheng Yifu Chen Minghui Fang ... Rongjie Huang Yidi Jiang Qian Chen Zhou Zhao Zhou Zhao VLM 75 40 0 29 Aug 2024
Autoregressive Speech Synthesis without Vector Quantization Lingwei Meng Long Zhou Shujie Liu Sanyuan Chen Bing Han ... Jinyu Li Sheng Zhao Xixin Wu Helen M. Meng Furu Wei 89 40 0 11 Jul 2024
MAD Speech: Measures of Acoustic Diversity of Speech Matthieu Futeral A. Agostinelli Marco Tagliasacchi Neil Zeghidour Eugene Kharitonov 72 1 0 16 Apr 2024
Self-Training for End-to-End Speech Recognition Jacob Kahn Ann Lee Awni Y. Hannun SSL 49 232 0 19 Sep 2019
wav2letter++: The Fastest Open-source Speech Recognition System Vineel Pratap Awni Y. Hannun Qiantong Xu Jeff Cai Jacob Kahn Gabriel Synnaeve Vitaliy Liptchinsky R. Collobert VLM 42 156 0 18 Dec 2018
Unsupervised Cross-Modal Alignment of Speech and Text Embedding Spaces Yu-An Chung W. Weng S. Tong James R. Glass 57 100 0 18 May 2018
Speech2Vec: A Sequence-to-Sequence Framework for Learning Word Embeddings from Speech Yu-An Chung James R. Glass 3DV 55 184 0 23 Mar 2018