Mamba-based Decoder-Only Approach with Bidirectional Speech Modeling for Speech Recognition

11 November 2024

Papers citing "Mamba-based Decoder-Only Approach with Bidirectional Speech Modeling for Speech Recognition"

21 / 21 papers shown

Title
Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality Tri Dao Albert Gu Mamba 75 498 0 31 May 2024
An Investigation of Incorporating Mamba for Speech Enhancement Rong-Yu Chao Wen-Huang Cheng Moreno La Quatra Sabato Marco Siniscalchi Chao-Han Huck Yang Szu-Wei Fu Yu Tsao Mamba 80 31 0 10 May 2024
It's Never Too Late: Fusing Acoustic Information into Large Language Models for Automatic Speech Recognition Chen Chen Ruizhe Li Yuchen Hu Sabato Marco Siniscalchi Pin-Yu Chen Ensiong Chng Chao-Han Huck Yang 71 21 0 08 Feb 2024
Loss Masking Is Not Needed in Decoder-only Transformer for Discrete-token-based ASR Qian Chen Wen Wang Qinglin Zhang Siqi Zheng Shiliang Zhang Chong Deng Yukun Ma Hai Yu Jiaqing Liu Chong Zhang 41 9 0 08 Nov 2023
Exploring Speech Recognition, Translation, and Understanding with Discrete Speech Units: A Comparative Study Xuankai Chang Brian Yan Kwanghee Choi Jee-weon Jung Yichen Lu ... Pengcheng Guo Yao-Fei Cheng Pavel Denisov Kohei Saijo Hsiu-Hsuan Wang 90 40 0 27 Sep 2023
Decoder-only Architecture for Speech Recognition with CTC Prompts and Text Data Augmentation E. Tsunoo Hayato Futami Yosuke Kashiwagi Siddhant Arora Shinji Watanabe VLM AuLLM RALM 51 9 0 16 Sep 2023
A Multi-dimensional Deep Structured State Space Approach to Speech Enhancement Using Small-footprint Models Pin-Jui Ku Chao-Han Huck Yang Sabato Marco Siniscalchi Chin-Hui Lee 53 12 0 01 Jun 2023
Multi-Head State Space Model for Speech Recognition Yassir Fathullah Chunyang Wu Yuan Shangguan Junteng Jia Wenhan Xiong ... Chunxi Liu Yangyang Shi Ozlem Kalinli M. Seltzer Mark Gales 37 13 0 21 May 2023
A Comparative Study on E-Branchformer vs Conformer in Speech Recognition, Translation, and Understanding Tasks Yifan Peng Kwangyoun Kim Felix Wu Brian Yan Siddhant Arora William Chen Jiyang Tang Suwon Shon Prashant Sridhar Shinji Watanabe 60 18 0 18 May 2023
Structured State Space Decoder for Speech Recognition and Synthesis Koichi Miyazaki Masato Murata Tomoki Koriyama 67 13 0 31 Oct 2022
AudioLM: a Language Modeling Approach to Audio Generation Zalan Borsos Raphaël Marinier Damien Vincent Eugene Kharitonov Olivier Pietquin ... Dominik Roblek O. Teboul David Grangier Marco Tagliasacchi Neil Zeghidour AuLLM 126 601 0 07 Sep 2022
On the Parameterization and Initialization of Diagonal State Space Models Albert Gu Ankit Gupta Karan Goel Christopher Ré 71 314 0 23 Jun 2022
WAVPROMPT: Towards Few-Shot Spoken Language Understanding with Frozen Language Models Heting Gao Junrui Ni Kaizhi Qian Yang Zhang Shiyu Chang M. Hasegawa-Johnson VLM 135 31 0 29 Mar 2022
It's Raw! Audio Generation with State-Space Models Karan Goel Albert Gu Chris Donahue Christopher Ré 51 190 0 20 Feb 2022
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing Sanyuan Chen Chengyi Wang Zhengyang Chen Yu-Huan Wu Shujie Liu ... Yao Qian Jian Wu Micheal Zeng Xiangzhan Yu Furu Wei SSL 206 1,846 0 26 Oct 2021
GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of Transcribed Audio Guoguo Chen Shuzhou Chai Guan-Bo Wang Jiayu Du Weiqiang Zhang ... Xuchen Yao Yongqing Wang Yujun Wang Zhao You Zhiyong Yan 100 372 0 13 Jun 2021
Language Models are Few-Shot Learners Tom B. Brown Benjamin Mann Nick Ryder Melanie Subbiah Jared Kaplan ... Christopher Berner Sam McCandlish Alec Radford Ilya Sutskever Dario Amodei BDL 680 41,736 0 28 May 2020
Conformer: Convolution-augmented Transformer for Speech Recognition Anmol Gulati James Qin Chung-Cheng Chiu Niki Parmar Yu Zhang ... Wei Han Shibo Wang Zhengdong Zhang Yonghui Wu Ruoming Pang 210 3,119 0 16 May 2020
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer Colin Raffel Noam M. Shazeer Adam Roberts Katherine Lee Sharan Narang Michael Matena Yanqi Zhou Wei Li Peter J. Liu AIMat 377 20,053 0 23 Oct 2019
SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing Taku Kudo John Richardson 178 3,514 0 19 Aug 2018
ESPnet: End-to-End Speech Processing Toolkit Shinji Watanabe Takaaki Hori Shigeki Karita Tomoki Hayashi Jiro Nishitoba ... Jahn Heymann Sanjeev Khudanpur Nanxin Chen Adithya Renduchintala Tsubasa Ochiai VLM 93 1,501 0 30 Mar 2018