ContextNet: Improving Convolutional Neural Networks for Automatic Speech Recognition with Global Context

7 May 2020

Papers citing "ContextNet: Improving Convolutional Neural Networks for Automatic Speech Recognition with Global Context"

31 / 131 papers shown

Title
Comparing the Benefit of Synthetic Training Data for Various Automatic Speech Recognition Architectures Nick Rossenbach Mohammad Zeineldeen Benedikt Hilmes Ralf Schluter Hermann Ney 36 12 0 12 Apr 2021
A Toolbox for Construction and Analysis of Speech Datasets Evelina Bakhturina Vitaly Lavrukhin Boris Ginsburg 30 12 0 11 Apr 2021
Pushing the Limits of Non-Autoregressive Speech Recognition Edwin G. Ng Chung-Cheng Chiu Yu Zhang William Chan VLM 16 27 0 07 Apr 2021
Librispeech Transducer Model with Internal Language Model Prior Correction Albert Zeyer André Merboldt Wilfried Michel Ralf Schluter Hermann Ney 21 28 0 07 Apr 2021
Integer-only Zero-shot Quantization for Efficient Speech Recognition Sehoon Kim A. Gholami Z. Yao Nicholas Lee Patrick Wang Aniruddha Nrusimha Bohan Zhai Tianren Gao Michael W. Mahoney Kurt Keutzer MQ 25 23 0 31 Mar 2021
"Train one, Classify one, Teach one" -- Cross-surgery transfer learning for surgical step recognition Daniel Neimark Omri Bar Maya Zohar Gregory Hager Dotan Asselmann 22 13 0 24 Feb 2021
Tiny Transducer: A Highly-efficient Speech Recognition Model on Edge Devices Yuekai Zhang Sining Sun Long Ma 35 28 0 18 Jan 2021
Improving RNN-T ASR Accuracy Using Context Audio A. Schwarz Ilya Sklyar Simon Wiesler 24 9 0 20 Nov 2020
Efficient Knowledge Distillation for RNN-Transducer Models S. Panchapagesan Daniel S. Park Chung-Cheng Chiu Yuan Shangguan Qiao Liang A. Gruenstein 26 53 0 11 Nov 2020
Efficient End-to-End Speech Recognition Using Performers in Conformers Peidong Wang DeLiang Wang 25 3 0 09 Nov 2020
Fine-grained Style Modeling, Transfer and Prediction in Text-to-Speech Synthesis via Phone-Level Content-Style Disentanglement Daxin Tan Tan Lee 29 21 0 08 Nov 2020
Improving RNN transducer with normalized jointer network Mingkun Huang Jun Zhang Meng Cai Yang Zhang Jiali Yao Yongbin You Yi He Zejun Ma 25 7 0 03 Nov 2020
Streaming Attention-Based Models with Augmented Memory for End-to-End Speech Recognition Ching-Feng Yeh Yongqiang Wang Yangyang Shi Chunyang Wu Frank Zhang Julian Chan M. Seltzer AI4TS RALM 31 8 0 03 Nov 2020
Multitask Learning and Joint Optimization for Transformer-RNN-Transducer Speech Recognition J. Jeon Eesung Kim 4 13 0 02 Nov 2020
Cascaded encoders for unifying streaming and non-streaming ASR A. Narayanan Tara N. Sainath Ruoming Pang Jiahui Yu Chung-Cheng Chiu Rohit Prabhavalkar Ehsan Variani Trevor Strohman AuLLM 8 85 0 27 Oct 2020
Multitask Training with Text Data for End-to-End Speech Recognition Peidong Wang Tara N. Sainath Ron J. Weiss 16 27 0 27 Oct 2020
Improved Mask-CTC for Non-Autoregressive End-to-End ASR Yosuke Higuchi Hirofumi Inaguma Shinji Watanabe Tetsuji Ogawa Tetsunori Kobayashi 23 61 0 26 Oct 2020
Align-Refine: Non-Autoregressive Speech Recognition via Iterative Realignment Ethan A. Chi Julian Salazar Katrin Kirchhoff AI4TS 25 51 0 24 Oct 2020
SlimIPL: Language-Model-Free Iterative Pseudo-Labeling Tatiana Likhomanenko Qiantong Xu Jacob Kahn Gabriel Synnaeve R. Collobert VLM 29 61 0 22 Oct 2020
Self-training and Pre-training are Complementary for Speech Recognition Qiantong Xu Alexei Baevski Tatiana Likhomanenko Paden Tomasello Alexis Conneau R. Collobert Gabriel Synnaeve Michael Auli SSL VLM 45 170 0 22 Oct 2020
FastEmit: Low-latency Streaming ASR with Sequence-level Emission Regularization Jiahui Yu Chung-Cheng Chiu Bo-wen Li Shuo-yiin Chang Tara N. Sainath ... A. Narayanan Wei Han Anmol Gulati Yonghui Wu Ruoming Pang 20 90 0 21 Oct 2020
Pushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition Yu Zhang James Qin Daniel S. Park Wei Han Chung-Cheng Chiu Ruoming Pang Quoc V. Le Yonghui Wu VLM SSL 148 308 0 20 Oct 2020
Dual-mode ASR: Unify and Improve Streaming ASR with Full-context Modeling Jiahui Yu Wei Han Anmol Gulati Chung-Cheng Chiu Bo-wen Li Tara N. Sainath Yonghui Wu Ruoming Pang 30 18 0 12 Oct 2020
End-to-End Prediction of Parcel Delivery Time with Deep Learning for Smart-City Applications Arthur Cruz de Araujo Ali Etemad 11 34 0 23 Sep 2020
KoSpeech: Open-Source Toolkit for End-to-End Korean Speech Recognition Soohwan Kim Seyoung Bae Cheolhwang Won VLM 14 5 0 07 Sep 2020
wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations Alexei Baevski Henry Zhou Abdel-rahman Mohamed Michael Auli SSL 8 5,579 0 20 Jun 2020
GIPFA: Generating IPA Pronunciation from Audio Xavier Marjou 16 1 0 13 Jun 2020
ASAPP-ASR: Multistream CNN and Self-Attentive SRU for SOTA Speech Recognition Jing Pan Joshua Shapiro Jeremy Wohlwend Kyu Jeong Han Tao Lei T. Ma 19 22 0 21 May 2020
A systematic comparison of grapheme-based vs. phoneme-based label units for encoder-decoder-attention models Mohammad Zeineldeen Albert Zeyer Wei Zhou T. Ng Ralf Schluter Hermann Ney 22 2 0 19 May 2020
A New Training Pipeline for an Improved Neural Transducer Albert Zeyer André Merboldt Ralf Schluter Hermann Ney AI4TS MedIm 22 52 0 19 May 2020
Conformer: Convolution-augmented Transformer for Speech Recognition Anmol Gulati James Qin Chung-Cheng Chiu Niki Parmar Yu Zhang ... Wei Han Shibo Wang Zhengdong Zhang Yonghui Wu Ruoming Pang 101 3,038 0 16 May 2020