Title
Scaling Laws of Motion Forecasting and Planning -- A Technical Report Mustafa Baniodeh Kratarth Goel Scott Ettinger Carlos Fuertes Ari Seff ... Vinutha Kallem Sergio Casas Rami Al-Rfou Benjamin Sapp Dragomir Anguelov 33 0 0 09 Jun 2025
Automatic Stage Lighting Control: Is it a Rule-Driven Process or Generative Task? Zijian Zhao Dian Jin Zijing Zhou Xiaoyu Zhang 43 0 0 02 Jun 2025
Rhythm Controllable and Efficient Zero-Shot Voice Conversion via Shortcut Flow Matching Jialong Zuo Shengpeng Ji Minghui Fang Mingze Li Ziyue Jiang Xize Cheng Xiaoda Yang Chen Feiyang Xinyu Duan Zhou Zhao 50 0 0 01 Jun 2025
In-the-wild Audio Spatialization with Flexible Text-guided Localization Tianrui Pan Jie Liu Z. Huang Jie Tang Gangshan Wu 61 0 0 01 Jun 2025
AudioTurbo: Fast Text-to-Audio Generation with Rectified Diffusion Junqi Zhao Jinzheng Zhao Haohe Liu Yun Chen Lu Han Xubo Liu Mark D. Plumbley Wenwu Wang DiffM 48 0 0 28 May 2025
Text-Queried Audio Source Separation via Hierarchical Modeling Xinlei Yin Xiulian Peng Xue Jiang Zhiwei Xiong Yan Lu 56 0 0 27 May 2025
Accelerating Autoregressive Speech Synthesis Inference With Speech Speculative Decoding Zijian Lin Yang Zhang Yougen Yuan Yuming Yan Jinjiang Liu Zhiyong Wu Pengfei Hu Qun Yu 106 0 0 21 May 2025
Efficient Speech Language Modeling via Energy Distance in Continuous Latent Space Zhengrui Ma Yang Feng Chenze Shao Fandong Meng Jie Zhou Min Zhang 81 0 0 19 May 2025
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play Yemin Shi Yu Shu Siwei Dong Guangyi Liu Jaward Sesay Jingwen Li Zhiting Hu AuLLM VLM 98 0 0 05 May 2025
ISDrama: Immersive Spatial Drama Generation through Multimodal Prompting Yanzhe Zhang Wenxiang Guo Changhao Pan Zehan Zhu Tao Jin Zhou Zhao VGen 132 1 0 29 Apr 2025
Kimi-Audio Technical Report KimiTeam Ding Ding Zeqian Ju Yichong Leng Shixuan Liu ... Zhiyong Yang Aoxiong Yin Ruibin Yuan Yanzhe Zhang Zaida Zhou AuLLM VLM 187 13 0 25 Apr 2025
ALMTokenizer: A Low-bitrate and Semantic-rich Audio Codec Tokenizer for Audio Language Modeling Dongchao Yang Songxiang Liu Haohan Guo Jiankun Zhao Yuanyuan Wang ... Xubo Liu Xueyuan Chen Xu Tan Xixin Wu Helen Meng 233 2 0 14 Apr 2025
UniSep: Universal Target Audio Separation with Language Models at Scale Yun Wang Hangting Chen Dongchao Yang Weiqin Li Dan Luo Guangzhi Li Shan Yang Zhiyong Wu Helen Meng Xixin Wu VLM 84 1 0 31 Mar 2025
UniWav: Towards Unified Pre-training for Speech Representation Learning and Generation Alexander H. Liu Sang-gil Lee Chao-Han Huck Yang Yuan Gong Yu-Chun Wang James Glass Rafael Valle Bryan Catanzaro SSL 101 1 0 02 Mar 2025
Audio-FLAN: A Preliminary Release Liumeng Xue Ziya Zhou J. Pan Zhiyu Li Shuai Fan ... Haohe Liu Emmanouil Benetos Ge Zhang Yike Guo Wei Xue MLLM AuLLM CLIP VLM 93 1 0 23 Feb 2025
Speech Enhancement Using Continuous Embeddings of Neural Audio Codec Haoyang Li J. Yip Tianyu Fan Eng Siong Chng 104 4 0 22 Feb 2025
Slamming: Training a Speech Language Model on One GPU in a Day Gallil Maimon Avishai Elmakies Yossi Adi 95 3 0 19 Feb 2025
Do we really have to filter out random noise in pre-training data for language models? Jinghan Ru Yuxin Xie Xianwei Zhuang Yuguo Yin Zhihui Guo Zhiming Liu Qianli Ren Yuexian Zou 193 6 0 10 Feb 2025
Survey on AI-Generated Media Detection: From Non-MLLM to MLLM Yueying Zou Peipei Li Zekun Li Huaibo Huang Xing Cui Xuannan Liu Chenghanyu Zhang Ran He DeLMO 229 3 0 07 Feb 2025
High-Fidelity Simultaneous Speech-To-Speech Translation Tom Labiausse Laurent Mazaré Edouard Grave P. Pérez Alexandre Défossez Neil Zeghidour 488 1 0 05 Feb 2025
AudioMiXR: Spatial Audio Object Manipulation with 6DoF for Sound Design in Augmented Reality Brandon Woodard Margarita Geleta Joseph J. LaViola Jr. Andrea Fanelli Rhonda Wilson 176 4 0 05 Feb 2025
Audio-Language Models for Audio-Centric Tasks: A survey Yi Su Jisheng Bai Qisheng Xu Kele Xu Yong Dou AuLLM 168 4 0 28 Jan 2025
TTS-Transducer: End-to-End Speech Synthesis with Neural Transducer Vladimir Bataev Subhankar Ghosh Vitaly Lavrukhin Jason Chun Lok Li AI4TS 120 1 0 10 Jan 2025
Audio-Language Datasets of Scenes and Events: A Survey Gijs Wijngaard Elia Formisano Michele Esposito M. Dumontier 191 3 0 10 Jan 2025
Autoregressive Speech Synthesis with Next-Distribution Prediction Xinfa Zhu WenJie Tian Lei Xie VLM 250 5 0 22 Dec 2024
SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters Jianping Jiang Weiye Xiao Zhengyu Lin Han Zhang Tianxiang Ren Yang Gao Zhiqian Lin Zhongang Cai Lei Yang Ziwei Liu 150 3 0 29 Nov 2024
Deepfake Media Generation and Detection in the Generative AI Era: A Survey and Outlook Florinel-Alin Croitoru Andrei Iulian Hiji Vlad Hondru Nicolae-Cătălin Ristea Paul Irofti Marius Popescu Cristian Rusu Radu Tudor Ionescu Fahad Shahbaz Khan Mubarak Shah 139 5 0 29 Nov 2024
Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis Shijia Liao Yanjie Wang Tianyu Li Yifan Cheng Ruoyi Zhang Rongzhi Zhou Yijin Xing AuLLM 79 17 0 02 Nov 2024
An Empirical Analysis of Speech Self-Supervised Learning at Multiple Resolutions Theo Clark Benedetta Cevoli Eloy de Jong Timofey Abramski Jamie Dougherty SSL 73 0 0 31 Oct 2024
MusicFlow: Cascaded Flow Matching for Text Guided Music Generation K R Prajwal Bowen Shi Matthew Lee Apoorv Vyas Andros Tjandra ... Baishan Guo Huiyu Wang Triantafyllos Afouras David Kant Wei-Ning Hsu 82 5 0 27 Oct 2024
Continuous Speech Tokenizer in Text To Speech Yixing Li Ruobing Xie Xingwu Sun Yu Cheng Zhanhui Kang AuLLM CLL 128 2 0 22 Oct 2024
Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding Tan Dat Nguyen Ji-Hoon Kim Jeongsoo Choi Shukjae Choi Jinseok Park Younglo Lee Joon Son Chung 86 3 0 17 Oct 2024
SF-Speech: Straightened Flow for Zero-Shot Voice Clone Xuyuan Li Zengqiang Shang Hua Hua Peiyang Shi Chen Yang Li Wang Pengyuan Zhang 153 3 0 16 Oct 2024
Enhancing Robustness in Deep Reinforcement Learning: A Lyapunov Exponent Approach Rory Young Nicolas Pugeault AAML 138 0 0 14 Oct 2024
SRC-gAudio: Sampling-Rate-Controlled Audio Generation Chenxing Li Manjie Xu Dong Yu DiffM 55 0 0 09 Oct 2024
MaD-Scientist: AI-based Scientist solving Convection-Diffusion-Reaction Equations Using Massive PINN-Based Prior Data Mingu Kang Dongseok Lee Woojin Cho Jaehyeon Park Kookjin Lee Anthony Gruber Youngjoon Hong Noseong Park DiffM AI4CE 72 0 0 09 Oct 2024
HALL-E: Hierarchical Neural Codec Language Model for Minute-Long Zero-Shot Text-to-Speech Synthesis Yuto Nishimura Takumi Hirose Masanari Ohi Hideki Nakayama Nakamasa Inoue VLM 112 2 0 06 Oct 2024
SyllableLM: Learning Coarse Semantic Units for Speech Language Models Alan Baade Puyuan Peng David Harwath 126 8 0 05 Oct 2024
Recent Advances in Speech Language Models: A Survey Wenqian Cui Dianzhi Yu Xiaoqi Jiao Ziqiao Meng Guangyan Zhang Qichao Wang Yiwen Guo Irwin King AuLLM 208 26 0 01 Oct 2024
AudioComposer: Towards Fine-grained Audio Generation with Natural Language Descriptions Yun Wang Hangting Chen Dongchao Yang Zhiyong Wu Xixin Wu DiffM 97 2 0 19 Sep 2024
Affective Computing Has Changed: The Foundation Model Disruption Björn Schuller Adria Mallol-Ragolta Alejandro Pena Almansa Iosif Tsangko Mostafa M. Amin A. Semertzidou Lukas Christ Shahin Amiriparian 113 1 0 13 Sep 2024
Text-To-Speech Synthesis In The Wild Jee-weon Jung Wangyou Zhang Soumi Maiti Yihan Wu Xin Eric Wang ... Hye-jin Shim Nicholas W. D. Evans Joon Son Chung Shinnosuke Takamichi Shinji Watanabe 100 2 0 13 Sep 2024
SongCreator: Lyrics-based Universal Song Generation Shun Lei Yixuan Zhou Boshi Tang Max W. Y. Lam Feng Liu Hangyu Liu Jingcheng Wu Shiyin Kang Zhiyong Wu Helen Meng 101 8 0 09 Sep 2024
Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model Zhen Ye Peiwen Sun Jiahe Lei Hongzhan Lin Xu Tan ... Jianyi Chen Jiahao Pan Qifeng Liu Yike Guo Wei Xue AuLLM 72 19 0 30 Aug 2024
Does Current Deepfake Audio Detection Model Effectively Detect ALM-based Deepfake Audio? Yuankun Xie Chenxu Xiong Xiaopeng Wang Zhiyong Wang Yi Lu ... Yukun Liu Zhengqi Wen Jianhua Tao Guanjun Li Long Ye AuLLM 119 1 0 20 Aug 2024
PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation Sang-Hoon Lee Ha-Yeong Choi Seong-Whan Lee OOD DiffM AI4TS 110 6 0 14 Aug 2024
LiPCoT: Linear Predictive Coding based Tokenizer for Self-supervised Learning of Time Series Data via Language Models Md Fahim Anjum AI4TS 86 2 0 14 Aug 2024
StreamVoice+: Evolving into End-to-end Streaming Zero-shot Voice Conversion Zhichao Wang Yuanzhe Chen Xinsheng Wang Lei Xie Yuping Wang 117 1 0 05 Aug 2024
Zero-Shot vs. Few-Shot Multi-Speaker TTS Using Pre-trained Czech SpeechT5 Model Jan Lehecka Z. Hanzlícek J. Matousek Daniel Tihelka 66 0 0 24 Jul 2024
Computer Audition: From Task-Specific Machine Learning to Foundation Models Andreas Triantafyllopoulos Iosif Tsangko Alexander Gebhard A. Mesaros Tuomas Virtanen Björn Schuller 98 4 0 22 Jul 2024