Speech ReaLLM -- Real-time Streaming Speech Recognition with Multimodal
LLMs by Teaching the Flow of Time

Speech ReaLLM -- Real-time Streaming Speech Recognition with Multimodal LLMs by Teaching the Flow of Time

13 June 2024

Yangyang Shi

Papers citing "Speech ReaLLM -- Real-time Streaming Speech Recognition with Multimodal LLMs by Teaching the Flow of Time"

10 / 10 papers shown

Title
SimulS2S-LLM: Unlocking Simultaneous Inference of Speech LLMs for Speech-to-Speech Translation Keqi Deng Wenxi Chen Xie Chen P. Woodland 43 0 0 22 Apr 2025
SocialMind: LLM-based Proactive AR Social Assistive System with Human-like Perception for In-situ Live Interactions Bufang Yang Yunqi Guo Lilin Xu Zhenyu Yan Hongkai Chen Guoliang Xing Xiaofan Jiang 75 9 0 05 Dec 2024
Optimizing Contextual Speech Recognition Using Vector Quantization for Efficient Retrieval Nikolaos Flemotomos Roger Hsiao P. Swietojanski Takaaki Hori Dogan Can Xiaodan Zhuang 46 0 0 01 Nov 2024
Efficient Streaming LLM for Speech Recognition J. Jia Gil Keren Wei Zhou Egor Lakomkin Xiaohui Zhang Chunyang Wu Frank Seide Jay Mahadeokar Ozlem Kalinli AuLLM 29 0 0 02 Oct 2024
LLaMA-Omni: Seamless Speech Interaction with Large Language Models Qingkai Fang Shoutao Guo Yan Zhou Zhengrui Ma Shaolei Zhang Yang Feng AuLLM 25 30 0 10 Sep 2024
Language Model Can Listen While Speaking Ziyang Ma Yakun Song Chenpeng Du Jian Cong Zhuo Chen Yuping Wang Yixuan Wang Xie Chen AuLLM 37 23 0 05 Aug 2024
BESTOW: Efficient and Streamable Speech Language Model with the Best of Two Worlds in GPT and T5 Zhehuai Chen He Huang Oleksii Hrinchuk Krishna C. Puvvada Nithin Rao Koluguri Piotr Żelasko Jagadeesh Balam Boris Ginsburg AuLLM RALM 38 10 0 28 Jun 2024
Efficient Monotonic Multihead Attention Xutai Ma Anna Y. Sun Siqi Ouyang H. Inaguma Paden Tomasello 44 4 0 07 Dec 2023
Emformer: Efficient Memory Transformer Based Acoustic Model For Low Latency Streaming Speech Recognition Yangyang Shi Yongqiang Wang Chunyang Wu Ching-Feng Yeh Julian Chan Frank Zhang Duc Le M. Seltzer 56 168 0 21 Oct 2020
Pushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition Yu Zhang James Qin Daniel S. Park Wei Han Chung-Cheng Chiu Ruoming Pang Quoc V. Le Yonghui Wu VLM SSL 146 308 0 20 Oct 2020