SSR: Alignment-Aware Modality Connector for Speech Language Models

30 September 2024

Papers citing "SSR: Alignment-Aware Modality Connector for Speech Language Models"

4 / 4 papers shown

Title
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play Yemin Shi Yu Shu Siwei Dong Guangyi Liu Jaward Sesay Jingwen Li Zhiting Hu AuLLM VLM 50 0 0 05 May 2025
Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs Umberto Cappellazzo Minsu Kim Stavros Petridis 62 1 0 09 Mar 2025
Moshi: a speech-text foundation model for real-time dialogue Alexandre Défossez Laurent Mazaré Manu Orsini Amélie Royer P. Pérez Hervé Jégou Edouard Grave Neil Zeghidour AuLLM 63 106 0 17 Sep 2024
DiffNorm: Self-Supervised Normalization for Non-autoregressive Speech-to-speech Translation Weiting Tan Jingyu Zhang Lingfeng Shen Daniel Khashabi Philipp Koehn 37 0 0 22 May 2024