v1v2 (latest)

Performance evaluation of SLAM-ASR: The Good, the Bad, the Ugly, and the Way Forward

6 November 2024

Papers citing "Performance evaluation of SLAM-ASR: The Good, the Bad, the Ugly, and the Way Forward"

21 / 21 papers shown

Title
Adapting Automatic Speech Recognition for Accented Air Traffic Control Communications Marcus Yu Zhe Wee Justin Juin Hng Wong Lynus Lim Joe Yu Wei Tan Prannaya Gupta Dillion Lim En Hao Tew Aloysius Keng Siew Han Yong Zhi Lim 96 0 0 27 Feb 2025
WHISMA: A Speech-LLM to Perform Zero-shot Spoken Language Understanding Mohan Li Cong-Thanh Do Simon Keizer Youmna Farag Svetlana Stoyanchev R. Doddipatla 74 2 0 29 Aug 2024
SpeechVerse: A Large-scale Generalizable Audio Language Model Nilaksh Das Saket Dingliwal S. Ronanki Rohit Paturi David Huang ... Monica Sunkara S. Srinivasan Kyu J. Han Katrin Kirchhoff Katrin Kirchhoff 75 43 0 14 May 2024
An Embarrassingly Simple Approach for LLM with Strong ASR Capacity Ziyang Ma Guanrou Yang Yifan Yang Zhifu Gao Jiaming Wang ... Fan Yu Qian Chen Siqi Zheng Shiliang Zhang Xie Chen AuLLM 91 60 0 13 Feb 2024
Multilingual and Fully Non-Autoregressive ASR with Large Language Model Fusion: A Comprehensive Study Wenjie Huang Cyril Allauzen Tongzhou Chen Kilol Gupta Ke Hu James Qin Yu Zhang Yongqiang Wang Shuo-yiin Chang Tara N. Sainath MoMe 89 11 0 23 Jan 2024
SALMONN: Towards Generic Hearing Abilities for Large Language Models Changli Tang Wenyi Yu Guangzhi Sun Xianzhao Chen Tian Tan Wei Li Lu Lu Zejun Ma Chao Zhang LM&MA AuLLM 106 264 0 20 Oct 2023
Revisiting Large Language Models as Zero-shot Relation Extractors Guozheng Li Peng Wang Wenjun Ke KELM LRM ReLM 125 30 0 08 Oct 2023
Generative Speech Recognition Error Correction with Large Language Models and Task-Activating Prompting Chao-Han Huck Yang Yile Gu Yi-Chieh Liu Shalini Ghosh I. Bulyko A. Stolcke KELM LRM 101 52 0 27 Sep 2023
Prompting Large Language Models with Speech Recognition Abilities Yassir Fathullah Chunyang Wu Egor Lakomkin Junteng Jia Yuan Shangguan ... Wenhan Xiong Jay Mahadeokar Ozlem Kalinli Christian Fuegen M. Seltzer AuLLM 86 146 0 21 Jul 2023
Can Generative Large Language Models Perform ASR Error Correction? Rao Ma Mengjie Qian Potsawee Manakul Mark Gales Kate Knill AuLLM KELM 68 60 0 09 Jul 2023
On decoder-only architecture for speech-to-text and large language model integration Jian Wu Yashesh Gaur Zhuo Chen Long Zhou Yilun Zhu ... Jinyu Li Shujie Liu Bo Ren Linquan Liu Yu-Huan Wu AuLLM 94 136 0 08 Jul 2023
Prompting Large Language Models for Zero-Shot Domain Adaptation in Speech Recognition Yuang Li Yu-Huan Wu Jinyu Li Shujie Liu 103 47 0 28 Jun 2023
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models Deyao Zhu Jun Chen Xiaoqian Shen Xiang Li Mohamed Elhoseiny VLM MLLM 165 2,069 0 20 Apr 2023
LLaMA: Open and Efficient Foundation Language Models Hugo Touvron Thibaut Lavril Gautier Izacard Xavier Martinet Marie-Anne Lachaux ... Faisal Azhar Aurelien Rodriguez Armand Joulin Edouard Grave Guillaume Lample ALM PILM 1.5K 13,472 0 27 Feb 2023
A two-step approach to leverage contextual data: speech recognition in air-traffic communications Iuliia Nigmatulina Juan Pablo Zuluaga Amrutha Prasad Seyyed Saeed Sarfjoo P. Motlícek 131 16 0 08 Feb 2022
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing Sanyuan Chen Chengyi Wang Zhengyang Chen Yu-Huan Wu Shujie Liu ... Yao Qian Jian Wu Micheal Zeng Xiangzhan Yu Furu Wei SSL 271 1,905 0 26 Oct 2021
BERTraffic: BERT-based Joint Speaker Role and Speaker Change Detection for Air Traffic Control Communications Juan Pablo Zuluaga Seyyed Saeed Sarfjoo Amrutha Prasad Iuliia Nigmatulina P. Motlícek Karel Ondrej Oliver Ohneiser H. Helmke 99 18 0 12 Oct 2021
LoRA: Low-Rank Adaptation of Large Language Models J. E. Hu Yelong Shen Phillip Wallis Zeyuan Allen-Zhu Yuanzhi Li Shean Wang Lu Wang Weizhu Chen OffRL AI4TS AI4CE ALM AIMat 502 10,526 0 17 Jun 2021
Conformer: Convolution-augmented Transformer for Speech Recognition Anmol Gulati James Qin Chung-Cheng Chiu Niki Parmar Yu Zhang ... Wei Han Shibo Wang Zhengdong Zhang Yonghui Wu Ruoming Pang 229 3,164 0 16 May 2020
Common Voice: A Massively-Multilingual Speech Corpus Rosana Ardila Megan Branson Kelly Davis Michael Henretty M. Kohler Josh Meyer Reuben Morais Lindsay Saunders Francis M. Tyers Gregor Weber VLM 96 1,620 0 13 Dec 2019
MUSAN: A Music, Speech, and Noise Corpus David Snyder Guoguo Chen Daniel Povey 90 1,357 0 28 Oct 2015