Title
LM-SPT: LM-Aligned Semantic Distillation for Speech Tokenization DaeJin Jo Jeeyoung Yun Byungseok Roh Sungwoong Kim 7 0 0 20 Jun 2025
MagiCodec: Simple Masked Gaussian-Injected Codec for High-Fidelity Reconstruction and Generation Yakun Song Jiawei Chen Xiaobin Zhuang Chenpeng Du Ziyang Ma ... Dongya Jia Zhuo Chen Yuping Wang Yuxuan Wang Xie Chen 22 0 0 31 May 2025
Towards General Discrete Speech Codec for Complex Acoustic Environments: A Study of Reconstruction and Downstream Task Consistency Haoran Wang Guanyu Chen Bohan Li Hankun Wang Yiwei Guo Zhihan Li Xie Chen Kai Yu 31 0 0 28 May 2025
UniTTS: An end-to-end TTS system without decoupling of acoustic and semantic information Rui Wang Qianguo Sun Tianrong Chen Zhiyun Zeng Jinlin Wu Jiaxing Zhang VLM 30 0 0 23 May 2025
DualCodec: A Low-Frame-Rate, Semantically-Enhanced Neural Audio Codec for Speech Generation Jiaqi Li Xiaolong Lin Zhekai Li Shixi Huang Yuancheng Wang Chaoren Wang Zhenpeng Zhan Zhizheng Wu 83 1 0 19 May 2025
Efficient Speech Language Modeling via Energy Distance in Continuous Latent Space Zhengrui Ma Yang Feng Chenze Shao Fandong Meng Jie Zhou Min Zhang 79 0 0 19 May 2025
Analyzable Chain-of-Musical-Thought Prompting for High-Fidelity Music Generation Max W. Y. Lam Yijin Xing Weiya You Jingcheng Wu Zongyu Yin ... T. Zhao Chien-Hung Liu Xuchen Song Yang Li Yahui Zhou LRM 99 4 0 25 Mar 2025
Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens Xiang Wang Mingqi Jiang Zejun Ma Ziyu Zhang Shixuan Liu ... Zhifei Li Xie Chen Lei Xie Yu Guo Wei Xue 127 22 0 03 Mar 2025
UniCodec: Unified Audio Codec with Single Domain-Adaptive Codebook Yiheng Jiang Qian Chen Shengpeng Ji Yu Xi Wen Wang Chuxu Zhang Xianghu Yue Shiliang Zhang Haoyang Li 98 1 0 27 Feb 2025
SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation Ziqiang Liu Shuangrui Ding Zhixiong Zhang Xiaoyi Dong Pan Zhang Yuhang Zang Yuhang Cao Dahua Lin Jiaqi Wang 125 3 0 18 Feb 2025
Autoregressive Speech Synthesis with Next-Distribution Prediction Xinfa Zhu WenJie Tian Lei Xie VLM 242 5 0 22 Dec 2024
Enhancing TTS Stability in Hebrew using Discrete Semantic Units Ella Zeldes Or Tal Yossi Adi 57 1 0 28 Oct 2024
Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding Tan Dat Nguyen Ji-Hoon Kim Jeongsoo Choi Shukjae Choi Jinseok Park Younglo Lee Joon Son Chung 86 3 0 17 Oct 2024