LegoSLM: Connecting LLM with Speech Encoder using CTC Posteriors

LegoSLM: Connecting LLM with Speech Encoder using CTC Posteriors

16 May 2025

Kartik Audhkhasi

Bhuvana Ramabhadran

ArXiv (abs)PDF HTML

Papers citing "LegoSLM: Connecting LLM with Speech Encoder using CTC Posteriors"

9 / 9 papers shown

Title
Can Generative Large Language Models Perform ASR Error Correction? Rao Ma Mengjie Qian Potsawee Manakul Mark Gales Kate Knill AuLLM KELM 58 60 0 09 Jul 2023
Lego-Features: Exporting modular encoder features for streaming and deliberation ASR Rami Botros Rohit Prabhavalkar J. Schalkwyk Ciprian Chelba Tara N. Sainath Franccoise Beaufays AuLLM 45 3 0 31 Mar 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 1.5K 14,699 0 15 Mar 2023
N-best T5: Robust ASR Error Correction using Multiple Input Hypotheses and Constrained Decoding Space Rao Ma Mark Gales Kate Knill Mengjie Qian 56 33 0 01 Mar 2023
LegoNN: Building Modular Encoder-Decoder Models Siddharth Dalmia Dmytro Okhonko M. Lewis Sergey Edunov Shinji Watanabe Florian Metze Luke Zettlemoyer Abdel-rahman Mohamed AuLLM MoE 57 14 0 07 Jun 2022
Self-supervised Learning with Random-projection Quantizer for Speech Recognition Chung-Cheng Chiu James Qin Yu Zhang Jiahui Yu Yonghui Wu SSL 90 169 0 03 Feb 2022
SpeechStew: Simply Mix All Available Speech Recognition Data to Train One Large Neural Network William Chan Daniel S. Park Chris A. Lee Yu Zhang Quoc V. Le Mohammad Norouzi AI4TS 75 138 0 05 Apr 2021
MLS: A Large-Scale Multilingual Dataset for Speech Research Vineel Pratap Qiantong Xu Anuroop Sriram Gabriel Synnaeve R. Collobert AuLLM 97 509 0 07 Dec 2020
Common Voice: A Massively-Multilingual Speech Corpus Rosana Ardila Megan Branson Kelly Davis Michael Henretty M. Kohler Josh Meyer Reuben Morais Lindsay Saunders Francis M. Tyers Gregor Weber VLM 91 1,614 0 13 Dec 2019