Less Is More: Improved RNN-T Decoding Using Limited Label Context and Path Merging

12 December 2020

Papers citing "Less Is More: Improved RNN-T Decoding Using Limited Label Context and Path Merging"

29 / 29 papers shown

Title
Extreme Encoder Output Frame Rate Reduction: Improving Computational Latencies of Large End-to-End Models Rohit Prabhavalkar Zhong Meng Weiran Wang Adam Stooke Xingyu Cai Yanzhang He Arun Narayanan Dongseong Hwang Tara N. Sainath Pedro J. Moreno 30 8 0 27 Feb 2024
Investigating the Effect of Language Models in Sequence Discriminative Training for Neural Transducers Zijian Yang Wei Zhou Ralf Schluter Hermann Ney 25 0 0 11 Oct 2023
On the Relation between Internal Language Model and Sequence Discriminative Training for Neural Transducers Zijian Yang Wei Zhou Ralf Schluter Hermann Ney 32 0 0 25 Sep 2023
Globally Normalising the Transducer for Streaming Speech Recognition Rogier van Dalen 29 0 0 20 Jul 2023
Large-scale Language Model Rescoring on Long-form Data Tongzhou Chen Cyril Allauzen Yinghui Huang Daniel S. Park David Rybach ... Rodrigo Cabrera Kartik Audhkhasi Bhuvana Ramabhadran Pedro J. Moreno Michael Riley 33 14 0 13 Jun 2023
Streaming Speech-to-Confusion Network Speech Recognition Denis Filimonov Prabhat Pandey Ariya Rastrow Ankur Gandhe A. Stolcke HAI 24 0 0 02 Jun 2023
Semantic Segmentation with Bidirectional Language Models Improves Long-form ASR Yifan Jiang Hao Zhang Shankar Kumar Shuo-yiin Chang Tara N. Sainath 36 2 0 28 May 2023
End-to-End Speech Recognition: A Survey Rohit Prabhavalkar Takaaki Hori Tara N. Sainath Ralf Schluter Shinji Watanabe VLM 26 149 0 03 Mar 2023
N-best T5: Robust ASR Error Correction using Multiple Input Hypotheses and Constrained Decoding Space Rao Ma Mark J. F. Gales Kate Knill Mengjie Qian 11 32 0 01 Mar 2023
A Token-Wise Beam Search Algorithm for RNN-T Gil Keren 26 1 0 28 Feb 2023
UML: A Universal Monolingual Output Layer for Multilingual ASR Chaoyang Zhang Bo-wen Li Tara N. Sainath Trevor Strohman Shuo-yiin Chang 36 7 0 22 Feb 2023
Confidence Score Based Speaker Adaptation of Conformer Speech Recognition Systems Jiajun Deng Xurong Xie Tianzi Wang Mingyu Cui Boyang Xue Zengrui Jin Guinan Li Shujie Hu Xunying Liu 26 5 0 15 Feb 2023
Lattice-Free Sequence Discriminative Training for Phoneme-Based Neural Transducers Zijian Yang Wei Zhou Ralf Schluter Hermann Ney 29 4 0 07 Dec 2022
E2E Segmentation in a Two-Pass Cascaded Encoder ASR Model Yifan Jiang Shuo-yiin Chang Tara N. Sainath Yanzhang He David Rybach R. David Rohit Prabhavalkar Cyril Allauzen Cal Peyser Trevor Strohman 40 7 0 28 Nov 2022
Factorized Blank Thresholding for Improved Runtime Efficiency of Neural Transducers Duc Le Frank Seide Yuhao Wang Heng Chang Kjell Schubert Ozlem Kalinli M. Seltzer 19 6 0 02 Nov 2022
Fast and parallel decoding for transducer Wei Kang Liyong Guo Fangjun Kuang Long Lin Mingshuang Luo Zengwei Yao Xiaoyu Yang Piotr Żelasko Daniel Povey AI4TS 19 15 0 31 Oct 2022
A Language Agnostic Multilingual Streaming On-Device ASR System Bo-wen Li Tara N. Sainath Ruoming Pang Shuo-yiin Chang Qiumin Xu ... Qiao Liang Heguang Liu Yanzhang He Parisa Haghani Sameer Bidichandani AuLLM 34 11 0 29 Aug 2022
VQ-T: RNN Transducers using Vector-Quantized Prediction Network States Jiatong Shi G. Saon David Haws Shinji Watanabe Brian Kingsbury 32 3 0 03 Aug 2022
Contextual Density Ratio for Language Model Biasing of Sequence to Sequence ASR Systems Jesús Andrés-Ferrer Dario Albesano P. Zhan Paul Vozila 8 6 0 29 Jun 2022
On the Prediction Network Architecture in RNN-T for ASR Dario Albesano Jesús Andrés-Ferrer Nicola Ferri Puming Zhan AI4TS 24 0 0 29 Jun 2022
Confidence Score Based Conformer Speaker Adaptation for Speech Recognition Jiajun Deng Xurong Xie Tianzi Wang Mingyu Cui Boyang Xue Zengrui Jin Mengzhe Geng Guinan Li Xunying Liu Helen M. Meng 17 13 0 24 Jun 2022
Two-pass Decoding and Cross-adaptation Based System Combination of End-to-end Conformer and Hybrid TDNN ASR Systems Mingyu Cui Jiajun Deng Shoukang Hu Xurong Xie Tianzi Wang Shujie Hu Mengzhe Geng Boyang Xue Xunying Liu Helen M. Meng 33 9 0 23 Jun 2022
E2E Segmenter: Joint Segmenting and Decoding for Long-Form ASR Yifan Jiang Shuo-yiin Chang David Rybach Rohit Prabhavalkar Tara N. Sainath Cyril Allauzen Cal Peyser Zhiyun Lu VLM 36 24 0 22 Apr 2022
Efficient Training of Neural Transducer for Speech Recognition Wei Zhou Wilfried Michel Ralf Schluter Hermann Ney AI4TS 24 22 0 22 Apr 2022
Improving Rare Word Recognition with LM-aware MWER Training Weiran Wang Tongzhou Chen Tara N. Sainath Ehsan Variani Rohit Prabhavalkar ... S. Mavandadi Cal Peyser Trevor Strohman Yanzhang He David Rybach KELM 34 13 0 15 Apr 2022
Recent Advances in End-to-End Automatic Speech Recognition Jinyu Li VLM 29 363 0 02 Nov 2021
Input Length Matters: Improving RNN-T and MWER Training for Long-form Telephony Speech Recognition Zhiyun Lu Yanwei Pan Thibault Doutre Parisa Haghani Liangliang Cao Rohit Prabhavalkar C. Zhang Trevor Strohman AuLLM 83 14 0 08 Oct 2021
Tied & Reduced RNN-T Decoder Rami Botros Tara N. Sainath R. David Emmanuel Guzman Wei Li Yanzhang He 38 55 0 15 Sep 2021
Multitask Training with Text Data for End-to-End Speech Recognition Peidong Wang Tara N. Sainath Ron J. Weiss 16 27 0 27 Oct 2020