Title
Audio Turing Test: Benchmarking the Human-likeness of Large Language Model-based Text-to-Speech Systems in Chinese Xinyu Wang Ziyi Zhao Siyu Ren Shao Zhang Song Li ... Lin Qiu Guanglu Wan Xuezhi Cao Xunliang Cai Weinan Zhang ALM 32 0 0 16 May 2025
WavReward: Spoken Dialogue Models With Generalist Reward Evaluators Shengpeng Ji Tianle Liang Yong Li Jialong Zuo Minghui Fang ... Xize Cheng Siqi Zheng Jin Xu Junyang Lin Zhou Zhao AuLLM ALM 33 0 0 14 May 2025
Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets Weiyu Li Xuanyang Zhang Zheng Sun Di Qi Yiming Li ... Zeming Li Gang Yu Xiangyu Zhang Daxin Jiang Ping Tan 46 0 0 12 May 2025
Muyan-TTS: A Trainable Text-to-Speech Model Optimized for Podcast Scenarios with a $50K Budget$ Xin Li Kaikai Jia Hao Sun Jun Dai Z. L. Jiang 158 0 0 27 Apr 2025
Kimi-Audio Technical Report KimiTeam Ding Ding Zeqian Ju Yichong Leng Shixuan Liu ... Zhengyuan Yang Aoxiong Yin Ruibin Yuan Wenjie Qu Zaida Zhou AuLLM VLM 110 5 0 25 Apr 2025
Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation Hongcheng Gao Jiashu Qu Jingyi Tang Baolong Bi Yi Liu Hongyu Chen Li Liang Li Su Qingming Huang MLLM VLM LRM 85 5 0 25 Mar 2025
Empowering Time Series Analysis with Synthetic Data: A Survey and Outlook in the Era of Foundation Models Xu Liu Taha Aksu Juncheng Liu Qingsong Wen Keli Zhang Caiming Xiong Shri Kiran Srinivasan Doyen Sahoo Junnan Li Chenghao Liu AI4TS 47 0 0 14 Mar 2025