Multi-Modal Retrieval For Large Language Model Based Speech Recognition

Multi-Modal Retrieval For Large Language Model Based Speech Recognition

13 June 2024

Prashanth Gurunath Shivakumar

Grant P. Strimel

Papers citing "Multi-Modal Retrieval For Large Language Model Based Speech Recognition"

17 / 17 papers shown

Title
Speech-to-Text Adapter and Speech-to-Entity Retriever Augmented LLMs for Speech Understanding Mingqiu Wang Izhak Shafran H. Soltau Wei Han Yuan Cao Dian Yu Laurent El Shafey RALM AuLLM 76 9 0 08 Jun 2023
FoundationTTS: Text-to-Speech for ASR Customization with Generative Language Model Rui Xue Yanqing Liu Lei He Xuejiao Tan Linquan Liu Ed Lin Sheng Zhao 81 7 0 06 Mar 2023
Contextual Adapters for Personalized Speech Recognition in Neural Transducers Kanthashree Mysore Sathyendra Thejaswi Muniyappa Feng-Ju Chang Jing Liu Jinru Su Grant P. Strimel Athanasios Mouchtaris Siegfried Kunzmann 73 78 0 26 May 2022
Training Language Models with Memory Augmentation Zexuan Zhong Tao Lei Danqi Chen RALM 281 131 0 25 May 2022
SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation on Natural Speech Suwon Shon Ankita Pasad Felix Wu Pablo Brusco Yoav Artzi Karen Livescu Kyu Jeong Han AuLLM ELM 80 76 0 19 Nov 2021
Context-Aware Transformer Transducer for Speech Recognition Feng-Ju Chang Jing Liu Martin H. Radfar Athanasios Mouchtaris M. Omologo Ariya Rastrow Siegfried Kunzmann 47 84 0 05 Nov 2021
HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units Wei-Ning Hsu Benjamin Bolte Yao-Hung Hubert Tsai Kushal Lakhotia Ruslan Salakhutdinov Abdel-rahman Mohamed SSL 166 2,949 0 14 Jun 2021
MLS: A Large-Scale Multilingual Dataset for Speech Research Vineel Pratap Qiantong Xu Anuroop Sriram Gabriel Synnaeve R. Collobert AuLLM 86 503 0 07 Dec 2020
Deep Shallow Fusion for RNN-T Personalization Duc Le Gil Keren Julian Chan Jay Mahadeokar Christian Fuegen M. Seltzer 46 78 0 16 Nov 2020
CoVoST 2 and Massively Multilingual Speech-to-Text Translation Changhan Wang Anne Wu J. Pino SLR 57 75 0 20 Jul 2020
On Layer Normalization in the Transformer Architecture Ruibin Xiong Yunchang Yang Di He Kai Zheng Shuxin Zheng Chen Xing Huishuai Zhang Yanyan Lan Liwei Wang Tie-Yan Liu AI4CE 133 989 0 12 Feb 2020
REALM: Retrieval-Augmented Language Model Pre-Training Kelvin Guu Kenton Lee Zora Tung Panupong Pasupat Ming-Wei Chang RALM 129 2,102 0 10 Feb 2020
Libri-Light: A Benchmark for ASR with Limited or No Supervision Jacob Kahn M. Rivière Weiyi Zheng Evgeny Kharitonov Qiantong Xu ... Tatiana Likhomanenko Gabriel Synnaeve Armand Joulin Abdel-rahman Mohamed Emmanuel Dupoux AuLLM 65 672 0 17 Dec 2019
Recurrent Neural Network Transducer for Audio-Visual Speech Recognition Takaki Makino H. Liao Yannis Assael Brendan Shillingford Basi García Otavio Braga Olivier Siohan 68 129 0 08 Nov 2019
Generalization through Memorization: Nearest Neighbor Language Models Urvashi Khandelwal Omer Levy Dan Jurafsky Luke Zettlemoyer M. Lewis RALM 154 837 0 01 Nov 2019
Spoken SQuAD: A Study of Mitigating the Impact of Speech Recognition Errors on Listening Comprehension Chia-Hsuan Lee Szu-Lin Wu Chi-Liang Liu Hung-yi Lee 62 98 0 01 Apr 2018
Billion-scale similarity search with GPUs Jeff Johnson Matthijs Douze Hervé Jégou 257 3,721 0 28 Feb 2017