Title
Watermarking Autoregressive Image Generation Nikola Jovanović Ismail Labiad Tomáš Souček Martin Vechev Pierre Fernandez WIGM 40 0 0 19 Jun 2025
Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model Shaolei Zhang Shoutao Guo Qingkai Fang Yan Zhou Yang Feng MLLM AuLLM VLM 68 0 0 16 Jun 2025
Scheduled Interleaved Speech-Text Training for Speech-to-Speech Translation with LLMs Hayato Futami E. Tsunoo Yosuke Kashiwagi Yuki Ito Hassan Shahmohammadi Siddhant Arora Shinji Watanabe AuLLM 108 0 0 12 Jun 2025
mSTEB: Massively Multilingual Evaluation of LLMs on Speech and Text Tasks Luel Hagos Beyene Vivek Verma Min Ma Jesujoba Oluwadara Alabi Fabian David Schmidt Joyce Nakatumba-Nabende David Ifeoluwa Adelani 50 0 0 10 Jun 2025
Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model Haibin Wu Yuxuan Hu Ruchao Fan Xiaofei Wang K. Kumatani ... J. Yu Heng Lu Lijuan Wang Y. Qian Jinyu Li AuLLM 60 0 0 04 Jun 2025
SALMONN-omni: A Standalone Speech LLM without Codec Injection for Full-duplex Conversation Wenyi Yu Siyin Wang Xiaoyu Yang Xianzhao Chen Xiaohai Tian Jun Zhang Guangzhi Sun Lu Lu Yuxuan Wang Chao Zhang AuLLM 85 0 0 17 May 2025
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play Yemin Shi Yu Shu Siwei Dong Guangyi Liu Jaward Sesay Jingwen Li Zhiting Hu AuLLM VLM 98 0 0 05 May 2025
TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling Liang-Hsuan Tseng Yi-Chang Chen Kuan-Yi Lee Da-shan Shiu Hung-yi Lee AuLLM 161 0 0 09 Apr 2025
VocalNet: Speech LLM with Multi-Token Prediction for Faster and High-Quality Generation Yuhao Wang Heyang Liu Ziyang Cheng Ronghua Wu Qunshan Gu Yanfeng Wang Yu Wang 458 3 0 05 Apr 2025
InSerter: Speech Instruction Following with Unsupervised Interleaved Pre-training Dingdong Wang Jin Xu Ruihang Chu Zhifang Guo Xinyu Wang Jincenzi Wu Dongchao Yang Shengpeng Ji Junyang Lin AuLLM 143 2 0 04 Mar 2025
Slamming: Training a Speech Language Model on One GPU in a Day Gallil Maimon Avishai Elmakies Yossi Adi 95 3 0 19 Feb 2025
Benchmarking Rotary Position Embeddings for Automatic Speech Recognition Shucong Zhang Titouan Parcollet Rogier van Dalen Sourav Bhattacharya 100 0 0 10 Jan 2025
Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback Guan-Ting Lin Prashanth Gurunath Shivakumar Aditya Gourav Yile Gu Ankur Gandhe Hung-yi Lee I. Bulyko 122 9 0 04 Nov 2024
Recent Advances in Speech Language Models: A Survey Wenqian Cui Dianzhi Yu Xiaoqi Jiao Ziqiao Meng Guangyan Zhang Qichao Wang Yiwen Guo Irwin King AuLLM 208 26 0 01 Oct 2024
Salmon: A Suite for Acoustic Language Model Evaluation Gallil Maimon Amit Roth Yossi Adi ELM AuLLM 154 7 0 11 Sep 2024
MAD Speech: Measures of Acoustic Diversity of Speech Matthieu Futeral A. Agostinelli Marco Tagliasacchi Neil Zeghidour Eugene Kharitonov 141 1 0 16 Apr 2024