Title
Streaming parallel transducer beam search with fast-slow cascaded encoders Jay Mahadeokar Yangyang Shi Ke Li Duc Le Jiedan Zhu Vikas Chandra Ozlem Kalinli M. Seltzer 29 15 0 29 Mar 2022
Korean Tokenization for Beam Search Rescoring in Speech Recognition Kyuhong Shim Hyewon Bae Wonyong Sung 21 0 0 22 Feb 2022
RescoreBERT: Discriminative Speech Recognition Rescoring with BERT Liyan Xu Yile Gu J. Kolehmainen Haidar Khan Ankur Gandhe Ariya Rastrow A. Stolcke I. Bulyko 39 45 0 02 Feb 2022
Run-and-back stitch search: novel block synchronous decoding for streaming encoder-decoder ASR E. Tsunoo Chaitanya Narisetty Michael Hentschel Yosuke Kashiwagi Shinji Watanabe 8 2 0 25 Jan 2022
Two-Pass End-to-End ASR Model Compression Nauman Dawalatabad Tushar Vatsal Ashutosh Gupta Sungsoo Kim Shatrughan Singh Dhananjaya N. Gowda Chanwoo Kim 21 5 0 08 Jan 2022
Lattention: Lattice-attention in ASR rescoring Prabhat Pandey Sergio Duarte Torres Ali Orkan Bayer Ankur Gandhe Volker Leutnant 18 7 0 19 Nov 2021
Recent Advances in End-to-End Automatic Speech Recognition Jinyu Li VLM 32 363 0 02 Nov 2021
Towards efficient end-to-end speech recognition with biologically-inspired neural networks Thomas Bohnstingl Ayush Garg Stanislaw Wo'zniak G. Saon E. Eleftheriou A. Pantazi 29 5 0 04 Oct 2021
SimulLR: Simultaneous Lip Reading Transducer with Attention-Guided Adaptive Memory Zhijie Lin Zhou Zhao Haoyuan Li Jinglin Liu Meng Zhang Xingshan Zeng Xiaofei He 22 18 0 31 Aug 2021
Multitask-Based Joint Learning Approach To Robust ASR For Radio Communication Speech Duo Ma Nana Hou Van Tung Pham Haihua Xu Chng Eng Siong 33 22 0 22 Jul 2021
Instant One-Shot Word-Learning for Context-Specific Neural Sequence-to-Sequence Speech Recognition Christian Huber Juan Hussain Sebastian Stüker A. Waibel 21 24 0 05 Jul 2021
An Integrated Framework for Two-pass Personalized Voice Trigger Dexin Liao Jing Li Yiming Zhi Song Li Q. Hong Lin Li 13 1 0 30 Jun 2021
Raw Waveform Encoder with Multi-Scale Globally Attentive Locally Recurrent Networks for End-to-End Speech Recognition Max W. Y. Lam Jun Wang Chao Weng Dan Su Dong Yu 29 6 0 08 Jun 2021
Listen with Intent: Improving Speech Recognition with Audio-to-Intent Front-End Swayambhu Nath Ray Minhua Wu A. Raju Pegah Ghahremani Raghavendra Bilgi Milind Rao Harish Arsikere Ariya Rastrow A. Stolcke J. Droppo 18 10 0 14 May 2021
Searchable Hidden Intermediates for End-to-End Models of Decomposable Sequence Tasks Siddharth Dalmia Brian Yan Vikas Raunak Florian Metze Shinji Watanabe 39 30 0 02 May 2021
Bridging the gap between streaming and non-streaming ASR systems bydistilling ensembles of CTC and RNN-T models Thibault Doutre Wei Han Chung-Cheng Chiu Ruoming Pang Olivier Siohan Liangliang Cao 35 5 0 25 Apr 2021
FSR: Accelerating the Inference Process of Transducer-Based Models by Applying Fast-Skip Regularization Zhengkun Tian Jiangyan Yi Ye Bai J. Tao Shuai Zhang Zhengqi Wen 25 16 0 07 Apr 2021
TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech Recognition Zhengkun Tian Jiangyan Yi J. Tao Ye Bai Shuai Zhang Zhengqi Wen Xuefei Liu 14 19 0 04 Apr 2021
A study of latent monotonic attention variants Albert Zeyer Ralf Schluter Hermann Ney 24 5 0 30 Mar 2021
Residual Energy-Based Models for End-to-End Speech Recognition Qiujia Li Yu Zhang Bo-wen Li Liangliang Cao P. Woodland 31 13 0 25 Mar 2021
Transformer Based Deliberation for Two-Pass Speech Recognition Ke Hu Ruoming Pang Tara N. Sainath Trevor Strohman 27 37 0 27 Jan 2021
Less Is More: Improved RNN-T Decoding Using Limited Label Context and Path Merging Rohit Prabhavalkar Yanzhang He David Rybach S. Campbell A. Narayanan Trevor Strohman Tara N. Sainath 49 35 0 12 Dec 2020
Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech Recognition Binbin Zhang Di Wu Zhuoyuan Yao Xiong Wang F. Yu Chao Yang Liyong Guo Yaguang Hu Lei Xie X. Lei 29 77 0 10 Dec 2020
Improving accuracy of rare words for RNN-Transducer through unigram shallow fusion Vijay Ravi Yile Gu Ankur Gandhe Ariya Rastrow Linda Liu Denis Filimonov Scott Novotney I. Bulyko 24 9 0 30 Nov 2020
Multi-task Language Modeling for Improving Speech Recognition of Rare Words Chao-Han Huck Yang Linda Liu Ankur Gandhe Yile Gu A. Raju Denis Filimonov I. Bulyko 27 30 0 23 Nov 2020
A Better and Faster End-to-End Model for Streaming ASR Bo-wen Li Anmol Gulati Jiahui Yu Tara N. Sainath Chung-Cheng Chiu ... Wei Han Qiao Liang Yu Zhang Trevor Strohman Yonghui Wu AuLLM 25 123 0 21 Nov 2020
Efficient End-to-End Speech Recognition Using Performers in Conformers Peidong Wang DeLiang Wang 25 3 0 09 Nov 2020
Listen, Look and Deliberate: Visual context-aware speech recognition using pre-trained text-video representations Shahram Ghorbani Yashesh Gaur Yu Shi Jinyu Li 25 14 0 08 Nov 2020
Cascaded encoders for unifying streaming and non-streaming ASR A. Narayanan Tara N. Sainath Ruoming Pang Jiahui Yu Chung-Cheng Chiu Rohit Prabhavalkar Ehsan Variani Trevor Strohman AuLLM 8 85 0 27 Oct 2020
Multitask Training with Text Data for End-to-End Speech Recognition Peidong Wang Tara N. Sainath Ron J. Weiss 16 27 0 27 Oct 2020
Universal ASR: Unifying Streaming and Non-Streaming ASR Using a Single Encoder-Decoder Model Zhifu Gao Shiliang Zhang Ming Lei Ian Mcloughlin CVBM 22 15 0 27 Oct 2020
Improved Mask-CTC for Non-Autoregressive End-to-End ASR Yosuke Higuchi Hirofumi Inaguma Shinji Watanabe Tetsuji Ogawa Tetsunori Kobayashi 15 61 0 26 Oct 2020
Improving Streaming Automatic Speech Recognition With Non-Streaming Model Distillation On Unsupervised Data Thibault Doutre Wei Han Min Ma Zhiyun Lu Chung-Cheng Chiu Ruoming Pang A. Narayanan Ananya Misra Yu Zhang Liangliang Cao 69 22 0 22 Oct 2020
FastEmit: Low-latency Streaming ASR with Sequence-level Emission Regularization Jiahui Yu Chung-Cheng Chiu Bo-wen Li Shuo-yiin Chang Tara N. Sainath ... A. Narayanan Wei Han Anmol Gulati Yonghui Wu Ruoming Pang 20 90 0 21 Oct 2020
Dual-mode ASR: Unify and Improve Streaming ASR with Full-context Modeling Jiahui Yu Wei Han Anmol Gulati Chung-Cheng Chiu Bo-wen Li Tara N. Sainath Yonghui Wu Ruoming Pang 30 18 0 12 Oct 2020
Parallel Rescoring with Transformer for Streaming On-Device Speech Recognition Wei Li James Qin Chung-Cheng Chiu Ruoming Pang Yanzhang He 20 14 0 30 Aug 2020
Improving Tail Performance of a Deliberation E2E ASR Model Using a Large Text Corpus Cal Peyser S. Mavandadi Tara N. Sainath J. Apfel Ruoming Pang Shankar Kumar 29 46 0 24 Aug 2020
Developing RNN-T Models Surpassing High-Performance Hybrid Models with Customization Capability Jinyu Li Rui Zhao Zhong Meng Yanqing Liu Wenning Wei ... V. Mazalov Zhenghao Wang Lei He Sheng Zhao Jiawei Liu 18 107 0 30 Jul 2020
Gated Recurrent Context: Softmax-free Attention for Online Encoder-Decoder Speech Recognition Hyeonseung Lee Woohyun Kang Sung Jun Cheon Hyeongju Kim N. Kim 29 3 0 10 Jul 2020
On the Comparison of Popular End-to-End Models for Large Scale Speech Recognition Jinyu Li Yu-Huan Wu Yashesh Gaur Chengyi Wang Rui Zhao Shujie Liu 17 133 0 28 May 2020
Improving Proper Noun Recognition in End-to-End ASR By Customization of the MWER Loss Criterion Cal Peyser Tara N. Sainath Golan Pundak 20 13 0 19 May 2020
Attention-based Transducer for Online Speech Recognition Bin Wang Yan Yin Hui-Ching Lin 18 4 0 18 May 2020
A Streaming On-Device End-to-End Model Surpassing Server-Side Conventional Model Quality and Latency Tara N. Sainath Yanzhang He Bo-wen Li A. Narayanan Ruoming Pang ... Trevor Strohman Mirkó Visontai Yonghui Wu Yu Zhang Ding Zhao 25 215 0 28 Mar 2020
Deliberation Model Based Two-Pass End-to-End Speech Recognition Ke Hu Tara N. Sainath Ruoming Pang Rohit Prabhavalkar 16 85 0 17 Mar 2020
High-Accuracy and Low-Latency Speech Recognition with Two-Head Contextual Layer Trajectory LSTM Model Jinyu Li Rui Zhao Eric Sun J. H. M. Wong Amit Das Zhong Meng Jiawei Liu VLM 24 24 0 17 Mar 2020
Deep Representation Learning in Speech Processing: Challenges, Recent Advances, and Future Trends S. Latif R. Rana Sara Khalifa Raja Jurdak Junaid Qadir Björn W. Schuller AI4TS 32 81 0 02 Jan 2020
Audio-attention discriminative language model for ASR rescoring Ankur Gandhe Ariya Rastrow 22 24 0 06 Dec 2019
Recognizing long-form speech using streaming end-to-end models A. Narayanan Rohit Prabhavalkar Chung-Cheng Chiu David Rybach Tara N. Sainath Trevor Strohman 23 129 0 24 Oct 2019