Title
Two-pass Endpoint Detection for Speech Recognition A. Raju Aparna Khare Di He Ilya Sklyar Long Chen ... Zhe Zhang Colin Vaz Venkatesh Ravichandran Roland Maas Ariya Rastrow 28 0 0 17 Jan 2024
Semi-Autoregressive Streaming ASR With Label Context Siddhant Arora G. Saon Shinji Watanabe Brian Kingsbury AI4TS 23 5 0 19 Sep 2023
Neural Transducer Training: Reduced Memory Consumption with Sample-wise Computation Stefan Braun Erik McDermott Roger Hsiao 27 1 0 29 Nov 2022
Streaming, fast and accurate on-device Inverse Text Normalization for Automatic Speech Recognition Yashesh Gaur Nick Kibre Jian Xue Kangyuan Shu Yuhui Wang Issac Alphonso Jinyu Li Y. Gong 14 6 0 07 Nov 2022
Joint Audio/Text Training for Transformer Rescorer of Streaming Speech Recognition Suyoun Kim Ke Li Lucas Kabela Rongqing Huang Jiedan Zhu Ozlem Kalinli Duc Le 25 8 0 31 Oct 2022
Knowledge Transfer and Distillation from Autoregressive to Non-Autoregressive Speech Recognition Xun Gong Zhikai Zhou Y. Qian 20 3 0 15 Jul 2022
Deep Learning Enabled Semantic Communications with Speech Recognition and Synthesis Zhenzi Weng Zhijin Qin Xiaoming Tao Chengkang Pan Guangyi Liu Geoffrey Ye Li 33 131 0 09 May 2022
BERT-LID: Leveraging BERT to Improve Spoken Language Identification Yuting Nie Junhong Zhao Weiqiang Zhang Jinfeng Bai VLM 17 5 0 01 Mar 2022
Improving the fusion of acoustic and text representations in RNN-T Chao Zhang Bo-wen Li Zhiyun Lu Tara N. Sainath Shuo-yiin Chang AI4CE 36 12 0 25 Jan 2022
A Likelihood Ratio based Domain Adaptation Method for E2E Models Chhavi Choudhury Ankur Gandhe Xiaohan Ding I. Bulyko 14 10 0 10 Jan 2022
Sequence-level self-learning with multiple hypotheses K. Kumatani Dimitrios Dimitriadis Yashesh Gaur R. Gmyr Sefik Emre Eskimez Jinyu Li Michael Zeng SSL 20 1 0 10 Dec 2021
Cross-attention conformer for context modeling in speech enhancement for ASR A. Narayanan Chung-Cheng Chiu Tom O'Malley Quan Wang Yanzhang He 24 14 0 30 Oct 2021
Factorized Neural Transducer for Efficient Language Model Adaptation Xie Chen Zhong Meng S. Parthasarathy Jinyu Li 8 39 0 27 Sep 2021
End-to-End Speech Recognition from Federated Acoustic Models Yan Gao Titouan Parcollet Salah Zaiem Javier Fernandez-Marques Pedro Porto Buarque de Gusmão Daniel J. Beutel Nicholas D. Lane 15 43 0 29 Apr 2021
HMM-Free Encoder Pre-Training for Streaming RNN Transducer Lu Huang J. Sun Yu Tang Junfeng Hou Jinkun Chen Jun Zhang Zejun Ma 20 3 0 02 Apr 2021
A study of latent monotonic attention variants Albert Zeyer Ralf Schluter Hermann Ney 13 5 0 30 Mar 2021
Advancing RNN Transducer Technology for Speech Recognition G. Saon Zoltan Tueske Daniel Bolaños Brian Kingsbury 21 86 0 17 Mar 2021
Deep Shallow Fusion for RNN-T Personalization Duc Le Gil Keren Julian Chan Jay Mahadeokar Christian Fuegen M. Seltzer 21 77 0 16 Nov 2020
Improving RNN Transducer Based ASR with Auxiliary Tasks Chunxi Liu Frank Zhang Duc Le Suyoun Kim Yatharth Saraf Geoffrey Zweig 18 49 0 05 Nov 2020
Transformer-based End-to-End Speech Recognition with Local Dense Synthesizer Attention Menglong Xu Shengqiang Li Xiao-Lei Zhang 22 31 0 23 Oct 2020
Developing Real-time Streaming Transformer Transducer for Speech Recognition on Large-scale Dataset Xie Chen Yu-Huan Wu Zhenghao Wang Shujie Liu Jinyu Li 13 169 0 22 Oct 2020
Improving Tail Performance of a Deliberation E2E ASR Model Using a Large Text Corpus Cal Peyser S. Mavandadi Tara N. Sainath J. Apfel Ruoming Pang Shankar Kumar 14 46 0 24 Aug 2020
Distilling the Knowledge of BERT for Sequence-to-Sequence ASR Hayato Futami H. Inaguma Sei Ueno Masato Mimura S. Sakai Tatsuya Kawahara 19 50 0 09 Aug 2020
Modular End-to-end Automatic Speech Recognition Framework for Acoustic-to-word Model Qi Liu Zhehuai Chen Hao Li Mingkun Huang Yizhou Lu Kai Yu 11 6 0 31 Jul 2020
A Comparison of Label-Synchronous and Frame-Synchronous End-to-End Models for Speech Recognition Linhao Dong Cheng Yi Jianzong Wang Shiyu Zhou Shuang Xu X. Jia Bo Xu 28 17 0 20 May 2020
Mask CTC: Non-Autoregressive End-to-End ASR with CTC and Mask Predict Yosuke Higuchi Shinji Watanabe Nanxin Chen Tetsuji Ogawa Tetsunori Kobayashi 17 136 0 18 May 2020
Incremental Learning for End-to-End Automatic Speech Recognition Li Fu Xiaoxiao Li Libo Zi Zhengchen Zhang Youzheng Wu Xiaodong He Bowen Zhou CLL 32 23 0 11 May 2020
Exploring Pre-training with Alignments for RNN Transducer based End-to-End Speech Recognition Hu Hu Rui Zhao Jinyu Li Liang Lu Y. Gong 11 27 0 01 May 2020
Minimum Latency Training Strategies for Streaming Sequence-to-Sequence ASR H. Inaguma Yashesh Gaur Liang Lu Jinyu Li Y. Gong AI4TS 25 46 0 10 Apr 2020
Hybrid Autoregressive Transducer (hat) Ehsan Variani David Rybach Cyril Allauzen Michael Riley 16 158 0 12 Mar 2020
Imputer: Sequence Modelling via Imputation and Dynamic Programming William Chan Chitwan Saharia Geoffrey E. Hinton Mohammad Norouzi Navdeep Jaitly BDL AI4TS 16 114 0 20 Feb 2020
Single headed attention based sequence-to-sequence model for state-of-the-art results on Switchboard Zoltán Tüske G. Saon Kartik Audhkhasi Brian Kingsbury BDL 14 68 0 20 Jan 2020
Transformer-Transducer: End-to-End Speech Recognition with Self-Attention Ching-Feng Yeh Jay Mahadeokar Kaustubh Kalgaonkar Yongqiang Wang Duc Le Mahaveer Jain Kjell Schubert Christian Fuegen M. Seltzer 11 147 0 28 Oct 2019
Recognizing long-form speech using streaming end-to-end models A. Narayanan Rohit Prabhavalkar Chung-Cheng Chiu David Rybach Tara N. Sainath Trevor Strohman 16 129 0 24 Oct 2019
Adversarial Example Detection by Classification for Deep Speech Recognition Saeid Samizade Z. Tan Chao Shen X. Guan AAML 14 35 0 22 Oct 2019
OmniNet: A unified architecture for multi-modal multi-task learning Subhojeet Pramanik Priyanka Agrawal A. Hussain 19 41 0 17 Jul 2019
Listen, Attend, Spell and Adapt: Speaker Adapted Sequence-to-Sequence ASR F. Weninger Jesús Andrés-Ferrer Xinwei Li P. Zhan AI4TS 16 26 0 08 Jul 2019
The Architectural Implications of Facebook's DNN-based Personalized Recommendation Udit Gupta Carole-Jean Wu Xiaodong Wang Maxim Naumov Brandon Reagen ... Andrey Malevich Dheevatsa Mudigere M. Smelyanskiy Liang Xiong Xuan Zhang GNN 30 290 0 06 Jun 2019
RWTH ASR Systems for LibriSpeech: Hybrid vs Attention -- w/o Data Augmentation Christoph Luscher Eugen Beck Kazuki Irie M. Kitza Wilfried Michel Albert Zeyer Ralf Schluter Hermann Ney VLM 11 234 0 08 May 2019
Speaker Adaptation for End-to-End CTC Models Ke Li Jinyu Li Yong Zhao Kshitiz Kumar Y. Gong 14 24 0 04 Jan 2019
Automatic Grammar Augmentation for Robust Voice Command Recognition Yang Yang Anusha Lalitha Jinwon Lee Chris Lott 13 3 0 14 Nov 2018
Deep Learning Scaling is Predictable, Empirically Joel Hestness Sharan Narang Newsha Ardalani G. Diamos Heewoo Jun Hassan Kianinejad Md. Mostofa Ali Patwary Yang Yang Yanqi Zhou 40 711 0 01 Dec 2017
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Yonghui Wu M. Schuster Z. Chen Quoc V. Le Mohammad Norouzi ... Alex Rudnick Oriol Vinyals G. Corrado Macduff Hughes J. Dean AIMat 716 6,743 0 26 Sep 2016