Cascaded encoders for unifying streaming and non-streaming ASR

27 October 2020

Papers citing "Cascaded encoders for unifying streaming and non-streaming ASR"

30 / 30 papers shown

Title
ValSub: Subsampling Validation Data to Mitigate Forgetting during ASR Personalization Haaris Mehmood Karthikeyan P. Saravanan Pablo Peso Parada David Tuckey Mete Ozay Gil Ho Lee Jungin Lee Seokyeong Jung 82 0 0 12 Mar 2025
FastEmit: Low-latency Streaming ASR with Sequence-level Emission Regularization Jiahui Yu Chung-Cheng Chiu Yue Liu Shuo-yiin Chang Tara N. Sainath ... A. Narayanan Wei Han Anmol Gulati Yonghui Wu Ruoming Pang 62 92 0 21 Oct 2020
Dual-mode ASR: Unify and Improve Streaming ASR with Full-context Modeling Jiahui Yu Wei Han Anmol Gulati Chung-Cheng Chiu Yue Liu Tara N. Sainath Yonghui Wu Ruoming Pang 89 19 0 12 Oct 2020
Transformer Transducer: One Model Unifying Streaming and Non-streaming Speech Recognition Anshuman Tripathi Jaeyoung Kim Qian Zhang Han Lu Hasim Sak 50 43 0 07 Oct 2020
Sequence to Multi-Sequence Learning via Conditional Chain Mapping for Mixture Signals Jing Shi Xuankai Chang Pengcheng Guo Shinji Watanabe Yusuke Fujita Jiaming Xu Bo Xu Lei Xie 63 22 0 25 Jun 2020
On the Comparison of Popular End-to-End Models for Large Scale Speech Recognition Jinyu Li Yu-Huan Wu Yashesh Gaur Chengyi Wang Rui Zhao Shujie Liu 45 137 0 28 May 2020
Conformer: Convolution-augmented Transformer for Speech Recognition Anmol Gulati James Qin Chung-Cheng Chiu Niki Parmar Yu Zhang ... Wei Han Shibo Wang Zhengdong Zhang Yonghui Wu Ruoming Pang 223 3,139 0 16 May 2020
ContextNet: Improving Convolutional Neural Networks for Automatic Speech Recognition with Global Context Wei Han Zhengdong Zhang Yu Zhang Jiahui Yu Chung-Cheng Chiu James Qin Anmol Gulati Ruoming Pang Yonghui Wu 68 263 0 07 May 2020
A Streaming On-Device End-to-End Model Surpassing Server-Side Conventional Model Quality and Latency Tara N. Sainath Yanzhang He Yue Liu A. Narayanan Ruoming Pang ... Trevor Strohman Mirkó Visontai Yonghui Wu Yu Zhang Ding Zhao 68 216 0 28 Mar 2020
Deliberation Model Based Two-Pass End-to-End Speech Recognition Ke Hu Tara N. Sainath Ruoming Pang Rohit Prabhavalkar 78 87 0 17 Mar 2020
Transformer Transducer: A Streamable Speech Recognition Model with Transformer Encoders and RNN-T Loss Qian Zhang Han Lu Hasim Sak Anshuman Tripathi Erik McDermott Stephen Koo Shankar Kumar 86 480 0 07 Feb 2020
A comparison of end-to-end models for long-form speech recognition Chung-Cheng Chiu Wei Han Yu Zhang Ruoming Pang S. Kishchenko ... Anjuli Kannan Rohit Prabhavalkar Zhiwen Chen Tara N. Sainath Yonghui Wu AuLLM 78 83 0 06 Nov 2019
Transformer-Transducer: End-to-End Speech Recognition with Self-Attention Ching-Feng Yeh Jay Mahadeokar Kaustubh Kalgaonkar Yongqiang Wang Duc Le Mahaveer Jain Kjell Schubert Christian Fuegen M. Seltzer 74 150 0 28 Oct 2019
Recognizing long-form speech using streaming end-to-end models A. Narayanan Rohit Prabhavalkar Chung-Cheng Chiu David Rybach Tara N. Sainath Trevor Strohman 63 130 0 24 Oct 2019
Two-Pass End-to-End Speech Recognition Tara N. Sainath Ruoming Pang David Rybach Yanzhang He Rohit Prabhavalkar ... Qiao Liang Trevor Strohman Yonghui Wu Ian McGraw Chung-Cheng Chiu 77 148 0 29 Aug 2019
SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition Daniel S. Park William Chan Yu Zhang Chung-Cheng Chiu Barret Zoph E. D. Cubuk Quoc V. Le VLM 177 3,461 0 18 Apr 2019
Lingvo: a Modular and Scalable Framework for Sequence-to-Sequence Modeling Jonathan Shen Patrick Nguyen Yonghui Wu Zhiwen Chen Mengzhao Chen ... William Chan Shubham Toshniwal Baohua Liao M. Nirschl Pat Rondon VLM 87 211 0 21 Feb 2019
Toward domain-invariant speech recognition via large scale training A. Narayanan Ananya Misra K. Sim Golan Pundak Anshuman Tripathi Mohamed G. Elfeky Parisa Haghani Trevor Strohman M. Bacchiani VLM 47 109 0 16 Aug 2018
Recurrent Stacking of Layers for Compact Neural Machine Translation Models Raj Dabre Atsushi Fujita 57 60 0 14 Jul 2018
Minimum Word Error Rate Training for Attention-based Sequence-to-Sequence Models Rohit Prabhavalkar Tara N. Sainath Yonghui Wu Patrick Nguyen Zhiwen Chen Chung-Cheng Chiu Anjuli Kannan 58 162 0 05 Dec 2017
Multi-Dialect Speech Recognition With A Single Sequence-To-Sequence Model Yue Liu Tara N. Sainath K. Sim M. Bacchiani Eugene Weinstein Patrick Nguyen Zhiwen Chen Yan-Qing Wu Kanishka Rao 48 134 0 05 Dec 2017
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 713 131,652 0 12 Jun 2017
In-Datacenter Performance Analysis of a Tensor Processing Unit N. Jouppi C. Young Nishant Patil David Patterson Gaurav Agrawal ... Vijay Vasudevan Richard Walter Walter Wang Eric Wilcox Doe Hyun Yoon 235 4,635 0 16 Apr 2017
Joint CTC-Attention based End-to-End Speech Recognition using Multi-task Learning Suyoun Kim Takaaki Hori Shinji Watanabe 82 929 0 21 Sep 2016
TensorFlow: A system for large-scale machine learning Martín Abadi P. Barham Jianmin Chen Zhiwen Chen Andy Davis ... Vijay Vasudevan Pete Warden Martin Wicke Yuan Yu Xiaoqiang Zhang GNN AI4CE 433 18,361 0 27 May 2016
Highway Long Short-Term Memory RNNs for Distant Speech Recognition Yu Zhang Guoguo Chen Dong Yu Kaisheng Yao Sanjeev Khudanpur James R. Glass 3DV AI4TS 66 292 0 30 Oct 2015
Listen, Attend and Spell William Chan Navdeep Jaitly Quoc V. Le Oriol Vinyals RALM 156 2,266 0 05 Aug 2015
Attention-Based Models for Speech Recognition J. Chorowski Dzmitry Bahdanau Dmitriy Serdyuk Kyunghyun Cho Yoshua Bengio 127 2,607 0 24 Jun 2015
Adam: A Method for Stochastic Optimization Diederik P. Kingma Jimmy Ba ODL 1.9K 150,115 0 22 Dec 2014
Sequence Transduction with Recurrent Neural Networks Alex Graves 191 1,870 0 14 Nov 2012