Title
Teochew-Wild: The First In-the-wild Teochew Dataset with Orthographic Annotations Linrong Pan Chenglong Jiang Gaoze Hou Ying Gao 43 0 0 08 May 2025
Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal Large Language Model Training Yijie Zheng Bangjun Xiao Lei Shi Xiaoyang Li Faming Wu Tianyu Li Xuefeng Xiao Yuhang Zhang Yixuan Wang Shouda Liu MLLM MoE 67 1 0 31 Mar 2025
Qwen2.5-Omni Technical Report Jin Xu Zhifang Guo Jinzheng He Hangrui Hu Ting He ... K. Dang Bin Zhang Xinyu Wang Yunfei Chu Junyang Lin VGen AuLLM 90 16 0 26 Mar 2025
Audio-Language Models for Audio-Centric Tasks: A survey Yi Su Jisheng Bai Qisheng Xu Kele Xu Yong Dou AuLLM 99 2 0 28 Jan 2025
Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model Z. Ma Zhuo Chen Yixuan Wang Eng Siong Chng Xie Chen AuLLM LRM 64 9 0 13 Jan 2025
A Comparative Study of LLM-based ASR and Whisper in Low Resource and Code Switching Scenario Zheshu Song Z. Ma Yifan Yang Jianheng Zhuo Xie Chen 66 2 0 01 Dec 2024
Tiny-Align: Bridging Automatic Speech Recognition and Large Language Model on the Edge Ruiyang Qin Dancheng Liu Gelei Xu Zheyu Yan Chenhui Xu Yuting Hu Xiaolin Hu Jinjun Xiong Yiyu Shi AuLLM 110 1 0 21 Nov 2024
Roadmap towards Superhuman Speech Understanding using Large Language Models Fan Bu Yuhao Zhang Xuben Wang Benyou Wang Qiang Liu Hao Li LM&MA ELM AuLLM 141 1 0 17 Oct 2024
HDMoLE: Mixture of LoRA Experts with Hierarchical Routing and Dynamic Thresholds for Fine-Tuning LLM-based ASR Models Bingshen Mu Kun Wei Qijie Shao Yong Xu Lei Xie MoE 39 1 0 30 Sep 2024
Boosting Code-Switching ASR with Mixture of Experts Enhanced Speech-Conditioned LLM Fengrun Zhang Wang Geng Hukai Huang Cheng Yi He Qu He Qu AuLLM MoE 30 1 0 24 Sep 2024
Ideal-LLM: Integrating Dual Encoders and Language-Adapted LLM for Multilingual Speech-to-Text Hongfei Xue Wei Ren Xuelong Geng Kun Wei Longhao Li Qijie Shao Linju Yang Kai Diao Lei Xie AuLLM 25 3 0 17 Sep 2024
NEST-RQ: Next Token Prediction for Speech Self-Supervised Pre-Training Minglun Han Ye Bai Chen Shen Youjia Huang Mingkun Huang Zehua Lin Linhao Dong Lu Lu Yuxuan Wang 45 1 0 13 Sep 2024
Language Model Can Listen While Speaking Ziyang Ma Yakun Song Chenpeng Du Jian Cong Zhuo Chen Yuping Wang Yixuan Wang Xie Chen AuLLM 37 23 0 05 Aug 2024
Unveiling the Potential of LLM-Based ASR on Chinese Open-Source Datasets Xuelong Geng Tianyi Xu Kun Wei Bingshen Mu Hongfei Xue ... Pengcheng Guo Yuhang Dai Longhao Li Mingchen Shao Lei Xie 38 9 0 03 May 2024
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages Yu Zhang Wei Han James Qin Yongqiang Wang Ankur Bapna ... Pedro J. Moreno Chung-Cheng Chiu J. Schalkwyk Franccoise Beaufays Yonghui Wu VLM 79 253 0 02 Mar 2023
FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech Alexis Conneau Min Ma Simran Khanuja Yu Zhang Vera Axelrod Siddharth Dalmia Jason Riesa Clara E. Rivera Ankur Bapna VLM 83 282 0 25 May 2022
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 255 4,489 0 23 Jan 2020