Streaming Decoder-Only Automatic Speech Recognition with Discrete Speech
Units: A Pilot Study

Streaming Decoder-Only Automatic Speech Recognition with Discrete Speech Units: A Pilot Study

27 June 2024

Qing Yang

ArXiv (abs)PDF HTML

Papers citing "Streaming Decoder-Only Automatic Speech Recognition with Discrete Speech Units: A Pilot Study"

16 / 16 papers shown

Title
LLM as Effective Streaming Processor: Bridging Streaming-Batch Mismatches with Group Position Encoding Junlong Tong Jinlan Fu Zixuan Lin Yingqi Fan Anhao Zhao Hui Su Xiaoyu Shen 86 0 0 22 May 2025
It's Never Too Late: Fusing Acoustic Information into Large Language Models for Automatic Speech Recognition Chen Chen Ruizhe Li Yuchen Hu Sabato Marco Siniscalchi Pin-Yu Chen Ensiong Chng Chao-Han Huck Yang 81 22 0 08 Feb 2024
Loss Masking Is Not Needed in Decoder-only Transformer for Discrete-token-based ASR Qian Chen Wen Wang Qinglin Zhang Siqi Zheng Shiliang Zhang Chong Deng Yukun Ma Hai Yu Jiaqing Liu Chong Zhang 58 9 0 08 Nov 2023
Qwen Technical Report Jinze Bai Shuai Bai Yunfei Chu Zeyu Cui Kai Dang ... Zhenru Zhang Chang Zhou Jingren Zhou Xiaohuan Zhou Tianhang Zhu OSLM 264 1,895 0 28 Sep 2023
Exploring Speech Recognition, Translation, and Understanding with Discrete Speech Units: A Comparative Study Xuankai Chang Brian Yan Kwanghee Choi Jee-weon Jung Yichen Lu ... Pengcheng Guo Yao-Fei Cheng Pavel Denisov Kohei Saijo Hsiu-Hsuan Wang 107 42 0 27 Sep 2023
VioLA: Unified Codec Language Models for Speech Recognition, Synthesis, and Translation Tianrui Wang Long Zhou Zi-Hua Zhang Yu-Huan Wu Shujie Liu Yashesh Gaur Zhuo Chen Jinyu Li Furu Wei 81 105 0 25 May 2023
Modular Domain Adaptation for Conformer-Based Streaming ASR Qiujia Li Yue Liu DongSeon Hwang Tara N. Sainath P. M. Mengibar 75 12 0 22 May 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 1.5K 14,699 0 15 Mar 2023
Grounding Language Models to Images for Multimodal Inputs and Outputs Jing Yu Koh Ruslan Salakhutdinov Daniel Fried MLLM 98 122 0 31 Jan 2023
E-Branchformer: Branchformer with Enhanced merging for speech recognition Kwangyoun Kim Felix Wu Yifan Peng Jing Pan Prashant Sridhar Kyu Jeong Han Shinji Watanabe 136 117 0 30 Sep 2022
WeNet 2.0: More Productive End-to-End Speech Recognition Toolkit Binbin Zhang Di Wu Zhendong Peng Xingcheng Song Zhuoyuan Yao Hang Lv Linfu Xie Chao Yang Fuping Pan Jianwei Niu VLM 78 98 0 29 Mar 2022
HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units Wei-Ning Hsu Benjamin Bolte Yao-Hung Hubert Tsai Kushal Lakhotia Ruslan Salakhutdinov Abdel-rahman Mohamed SSL 182 2,993 0 14 Jun 2021
VideoGPT: Video Generation using VQ-VAE and Transformers Wilson Yan Yunzhi Zhang Pieter Abbeel A. Srinivas ViT VGen 310 512 0 20 Apr 2021
GLM: General Language Model Pretraining with Autoregressive Blank Infilling Zhengxiao Du Yujie Qian Xiao Liu Ming Ding J. Qiu Zhilin Yang Jie Tang BDL AI4CE 142 1,553 0 18 Mar 2021
AISHELL-2: Transforming Mandarin ASR Research Into Industrial Scale Jiayu Du Xingyu Na Xuechen Liu Hui Bu VLM 54 287 0 31 Aug 2018
Rethinking the Inception Architecture for Computer Vision Christian Szegedy Vincent Vanhoucke Sergey Ioffe Jonathon Shlens Z. Wojna 3DV BDL 886 27,416 0 02 Dec 2015