Efficient minimum word error rate training of RNN-Transducer for end-to-end speech recognition

27 July 2020

Jinxi Guo

Gautam Tiwari

J. Droppo

Maarten Van Segbroeck

Papers citing "Efficient minimum word error rate training of RNN-Transducer for end-to-end speech recognition"

42 / 42 papers shown

Title
SegAug: CTC-Aligned Segmented Augmentation For Robust RNN-Transducer Based Speech Recognition Khanh Le Tuan Vu Ho Dung Tran Duc Thanh Chau 54 0 0 20 Feb 2025
Towards scalable efficient on-device ASR with transfer learning Laxmi Pandey Ke Li Jinxi Guo Debjyoti Paul Arthur Guo Jay Mahadeokar Xuedong Zhang 31 2 0 23 Jul 2024
Effective internal language model training and fusion for factorized transducer model Jinxi Guo Niko Moritz Yingyi Ma Frank Seide Chunyang Wu Jay Mahadeokar Ozlem Kalinli Christian Fuegen Michael Seltzer 43 1 0 02 Apr 2024
Investigating the Effect of Language Models in Sequence Discriminative Training for Neural Transducers Zijian Yang Wei Zhou Ralf Schluter Hermann Ney 21 0 0 11 Oct 2023
Enabling Resource-efficient AIoT System with Cross-level Optimization: A survey Sicong Liu Bin Guo Cheng Fang Ziqi Wang Shiyan Luo Zimu Zhou Zhiwen Yu AI4CE 34 22 0 27 Sep 2023
On the Relation between Internal Language Model and Sequence Discriminative Training for Neural Transducers Zijian Yang Wei Zhou Ralf Schluter Hermann Ney 30 0 0 25 Sep 2023
O-1: Self-training with Oracle and 1-best Hypothesis M. Baskar Andrew Rosenberg Bhuvana Ramabhadran Kartik Audhkhasi VLM 22 0 0 14 Aug 2023
Globally Normalising the Transducer for Streaming Speech Recognition Rogier van Dalen 27 0 0 20 Jul 2023
Record Deduplication for Entity Distribution Modeling in ASR Transcripts Tianyu Huang Chung Hoon Hong Carl N. Wivagg Kanna Shimizu 16 0 0 09 Jun 2023
Powerful and Extensible WFST Framework for RNN-Transducer Losses A. Laptev Vladimir Bataev Igor Gitman Boris Ginsburg 18 3 0 18 Mar 2023
Lattice-Free Sequence Discriminative Training for Phoneme-Based Neural Transducers Zijian Yang Wei Zhou Ralf Schluter Hermann Ney 27 4 0 07 Dec 2022
Better Transcription of UK Supreme Court Hearings Hadeel Saadany C. Breslin Constantin Orasan Sophie Walker AILaw 19 6 0 29 Nov 2022
JOIST: A Joint Speech and Text Streaming Model For ASR Tara N. Sainath Rohit Prabhavalkar Ankur Bapna Yu Zhang Zhouyuan Huo Zhehuai Chen Bo-wen Li Weiran Wang Trevor Strohman RALM AuLLM 51 35 0 13 Oct 2022
Multiple-hypothesis RNN-T Loss for Unsupervised Fine-tuning and Self-training of Neural Transducer Cong-Thanh Do Mohan Li R. Doddipatla 14 3 0 29 Jul 2022
Reducing Geographic Disparities in Automatic Speech Recognition via Elastic Weight Consolidation V. Trinh Pegah Ghahremani Brian King J. Droppo A. Stolcke Roland Maas MoMe 11 5 0 16 Jul 2022
Minimizing Sequential Confusion Error in Speech Command Recognition Zhanheng Yang Hang Lv Xiong Wang Ao Zhang Linfu Xie 20 0 0 04 Jul 2022
Minimising Biasing Word Errors for Contextual ASR with the Tree-Constrained Pointer Generator Guangzhi Sun C. Zhang P. Woodland 32 14 0 18 May 2022
Efficient Training of Neural Transducer for Speech Recognition Wei Zhou Wilfried Michel Ralf Schluter Hermann Ney AI4TS 24 22 0 22 Apr 2022
Improving Rare Word Recognition with LM-aware MWER Training Weiran Wang Tongzhou Chen Tara N. Sainath Ehsan Variani Rohit Prabhavalkar ... S. Mavandadi Cal Peyser Trevor Strohman Yanzhang He David Rybach KELM 34 13 0 15 Apr 2022
Self-critical Sequence Training for Automatic Speech Recognition Chen Chen Yuchen Hu Nana Hou Xiaofeng Qi Heqing Zou Chng Eng Siong 24 15 0 13 Apr 2022
Memory-Efficient Training of RNN-Transducer with Sampled Softmax Jaesong Lee Lukas Lee Shinji Watanabe 25 8 0 31 Mar 2022
Integrating Lattice-Free MMI into End-to-End Speech Recognition Jinchuan Tian Jianwei Yu Chao Weng Yuexian Zou Dong Yu 19 8 0 29 Mar 2022
Spanish and English Phoneme Recognition by Training on Simulated Classroom Audio Recordings of Collaborative Learning Environments Mario Esparza 22 0 0 21 Feb 2022
A Likelihood Ratio based Domain Adaptation Method for E2E Models Chhavi Choudhury Ankur Gandhe Xiaohan Ding I. Bulyko 24 10 0 10 Jan 2022
Consistent Training and Decoding For End-to-end Speech Recognition Using Lattice-free MMI Jinchuan Tian Jianwei Yu Chao Weng Shi-Xiong Zhang Dan Su Dong Yu Yuexian Zou AuLLM 39 13 0 05 Dec 2021
Recent Advances in End-to-End Automatic Speech Recognition Jinyu Li VLM 29 363 0 02 Nov 2021
Automatic Learning of Subword Dependent Model Scales Felix Meyer Wilfried Michel Mohammad Zeineldeen Ralf Schluter Hermann Ney 14 0 0 18 Oct 2021
Input Length Matters: Improving RNN-T and MWER Training for Long-form Telephony Speech Recognition Zhiyun Lu Yanwei Pan Thibault Doutre Parisa Haghani Liangliang Cao Rohit Prabhavalkar C. Zhang Trevor Strohman AuLLM 80 14 0 08 Oct 2021
Tied & Reduced RNN-T Decoder Rami Botros Tara N. Sainath R. David Emmanuel Guzman Wei Li Yanzhang He 35 55 0 15 Sep 2021
On joint training with interfaces for spoken language understanding A. Raju Milind Rao Gautam Tiwari Pranav Dheram Bryan Anderson Zhe Zhang Chul Lee Bach Bui Ariya Rastrow VLM 13 11 0 30 Jun 2021
Minimum Word Error Rate Training with Language Model Fusion for End-to-End Speech Recognition Zhong Meng Yu-Huan Wu Naoyuki Kanda Liang Lu Xie Chen Guoli Ye Eric Sun Jinyu Li Jiawei Liu MoMe 25 21 0 04 Jun 2021
Flexi-Transducer: Optimizing Latency, Accuracy and Compute forMulti-Domain On-Device Scenarios Jay Mahadeokar Yangyang Shi Yuan Shangguan Chunyang Wu Alex Xiao Hang Su Duc Le Ozlem Kalinli Christian Fuegen M. Seltzer 16 3 0 06 Apr 2021
Residual Energy-Based Models for End-to-End Speech Recognition Qiujia Li Yu Zhang Bo-wen Li Liangliang Cao P. Woodland 23 13 0 25 Mar 2021
Wav2vec-C: A Self-supervised Model for Speech Representation Learning Samik Sadhu Di He Che-Wei Huang Sri Harish Reddy Mallidi Minhua Wu Ariya Rastrow A. Stolcke J. Droppo Roland Maas SSL 20 48 0 09 Mar 2021
Personalization Strategies for End-to-End Speech Recognition Systems Aditya Gourav Linda Liu Ankur Gandhe Yile Gu Guitang Lan ... Gautam Tiwari Denis Filimonov Ariya Rastrow A. Stolcke I. Bulyko 25 39 0 15 Feb 2021
Do as I mean, not as I say: Sequence Loss Training for Spoken Language Understanding Milind Rao Pranav Dheram Gautam Tiwari A. Raju J. Droppo Ariya Rastrow A. Stolcke 14 17 0 12 Feb 2021
REDAT: Accent-Invariant Representation for End-to-End ASR by Domain Adversarial Training with Relabeling Hu Hu Xuesong Yang Zeynab Raeesy Jinxi Guo Gokce Keskin Harish Arsikere Ariya Rastrow A. Stolcke Roland Maas 12 30 0 14 Dec 2020
Improving accuracy of rare words for RNN-Transducer through unigram shallow fusion Vijay Ravi Yile Gu Ankur Gandhe Ariya Rastrow Linda Liu Denis Filimonov Scott Novotney I. Bulyko 19 9 0 30 Nov 2020
Multi-task Language Modeling for Improving Speech Recognition of Rare Words Chao-Han Huck Yang Linda Liu Ankur Gandhe Yile Gu A. Raju Denis Filimonov I. Bulyko 19 30 0 23 Nov 2020
Minimum Bayes Risk Training for End-to-End Speaker-Attributed ASR Naoyuki Kanda Zhong Meng Liang Lu Yashesh Gaur Xiaofei Wang Zhuo Chen Takuya Yoshioka 20 17 0 03 Nov 2020
On Minimum Word Error Rate Training of the Hybrid Autoregressive Transducer Liang Lu Zhong Meng Naoyuki Kanda Jinyu Li Jiawei Liu 19 12 0 23 Oct 2020
Minimum Bayes Risk Training of RNN-Transducer for End-to-End Speech Recognition Chao Weng Chengzhu Yu Jia Cui Chunlei Zhang Dong Yu 77 39 0 28 Nov 2019