LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM

6 March 2025

Papers citing "LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM"

13 / 13 papers shown

Title
Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant Alan Dao Dinh Bach Vu Huy Hoang Ha AuLLM VLM 127 5 0 20 Oct 2024
EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions Kai Chen Yunhao Gou Runhui Huang Zhili Liu Daxin Tan ... Qun Liu Jun Yao Lu Hou Hang Xu Hang Xu AuLLM MLLM VLM 151 29 0 26 Sep 2024
WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling Shengpeng Ji Ziyue Jiang Xize Cheng Yifu Chen Minghui Fang ... Rongjie Huang Yidi Jiang Qian Chen Zhou Zhao Zhou Zhao VLM 126 44 0 29 Aug 2024
VITA: Towards Open-Source Interactive Omni Multimodal LLM Chaoyou Fu Haojia Lin Zuwei Long Yunhang Shen Meng Zhao ... Rongrong Ji Xing Sun Ran He Caifeng Shan Xing Sun MLLM 99 95 0 09 Aug 2024
CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens Zhihao Du Qian Chen Shiliang Zhang Kai Hu Heng Lu ... Siqi Zheng Yue Gu Ziyang Ma Zhifu Gao Zhijie Yan DiffM 76 140 0 07 Jul 2024
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena Lianmin Zheng Wei-Lin Chiang Ying Sheng Siyuan Zhuang Zhanghao Wu ... Dacheng Li Eric Xing Haotong Zhang Joseph E. Gonzalez Ion Stoica ALM OSLM ELM 426 4,422 0 09 Jun 2023
Robust Speech Recognition via Large-Scale Weak Supervision Alec Radford Jong Wook Kim Tao Xu Greg Brockman C. McLeavey Ilya Sutskever OffRL 203 3,732 0 06 Dec 2022
ByT5 model for massively multilingual grapheme-to-phoneme conversion Jian Zhu Cong Zhang David Jurgens 42 41 0 06 Apr 2022
ByT5: Towards a token-free future with pre-trained byte-to-byte models Linting Xue Aditya Barua Noah Constant Rami Al-Rfou Sharan Narang Mihir Kale Adam Roberts Colin Raffel 100 505 0 28 May 2021
FastPitch: Parallel Text-to-speech with Pitch Prediction Adrian Lañcucki 89 342 0 11 Jun 2020
Decoupled Weight Decay Regularization I. Loshchilov Frank Hutter OffRL 151 2,151 0 14 Nov 2017
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 786 132,363 0 12 Jun 2017
TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension Mandar Joshi Eunsol Choi Daniel S. Weld Luke Zettlemoyer RALM 228 2,686 0 09 May 2017