RNN-T Models Fail to Generalize to Out-of-Domain Audio: Causes and
Solutions

RNN-T Models Fail to Generalize to Out-of-Domain Audio: Causes and Solutions

7 May 2020

Chung-Cheng Chiu

Rohit Prabhavalkar

Tara N. Sainath

Papers citing "RNN-T Models Fail to Generalize to Out-of-Domain Audio: Causes and Solutions"

13 / 13 papers shown

Title
SegAug: CTC-Aligned Segmented Augmentation For Robust RNN-Transducer Based Speech Recognition Khanh Le Tuan Vu Ho Dung Tran Duc Thanh Chau 59 0 0 20 Feb 2025
Aligner-Encoders: Self-Attention Transformers Can Be Self-Transducers Adam Stooke Rohit Prabhavalkar K. Sim P. M. Mengibar 39 0 0 06 Feb 2025
Multi-Stage Multi-Modal Pre-Training for Automatic Speech Recognition Yash Jain David M. Chan Pranav Dheram Aparna Khare Olabanji Shonibare Venkatesh Ravichandran Shalini Ghosh 40 2 0 28 Mar 2024
Improved Long-Form Speech Recognition by Jointly Modeling the Primary and Non-primary Speakers Guru Prakash Arumugam Shuo-yiin Chang Tara N. Sainath Rohit Prabhavalkar Quan Wang Shaan Bijwadia 29 3 0 18 Dec 2023
Updated Corpora and Benchmarks for Long-Form Speech Recognition Jennifer Drexler Fox Desh Raj Natalie Delworth Quinn Mcnamara Corey Miller Miguel Jetté AuLLM 36 7 0 26 Sep 2023
Efficient Domain Adaptation for Speech Foundation Models Bo-wen Li DongSeon Hwang Zhouyuan Huo Junwen Bai Guru Prakash ... K. Sim Yu Zhang Wei Han Trevor Strohman F. Beaufays AI4CE 44 23 0 03 Feb 2023
Smart Speech Segmentation using Acousto-Linguistic Features with look-ahead Piyush Behre N. Parihar S.S. Tan A. Shah Eva Sharma Geoffrey Liu Shuangyu Chang H. Khalil C. Basoglu S. Pathak VLM 32 4 0 26 Oct 2022
Investigating data partitioning strategies for crosslinguistic low-resource ASR evaluation Zoey Liu J. Spence Emily Tucker Prudhommeaux 32 8 0 26 Aug 2022
VADOI:Voice-Activity-Detection Overlapping Inference For End-to-end Long-form Speech Recognition Jinhan Wang Xiaosu Tong Jinxi Guo Di He Roland Maas 23 5 0 22 Feb 2022
Multi-Modal Pre-Training for Automated Speech Recognition David M. Chan Shalini Ghosh D. Chakrabarty Björn Hoffmeister SSL 30 16 0 12 Oct 2021
Advancing RNN Transducer Technology for Speech Recognition G. Saon Zoltan Tueske Daniel Bolaños Brian Kingsbury 43 86 0 17 Mar 2021
Improving RNN-T ASR Accuracy Using Context Audio A. Schwarz Ilya Sklyar Simon Wiesler 21 9 0 20 Nov 2020
Improved Neural Language Model Fusion for Streaming Recurrent Neural Network Transducer Suyoun Kim Shangguan Yuan Jay Mahadeokar A. Bruguier Christian Fuegen M. Seltzer Duc Le 15 28 0 26 Oct 2020