SpecAugment on Large Scale Datasets

11 December 2019

Papers citing "SpecAugment on Large Scale Datasets"

39 / 89 papers shown

Title
BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition Yu Zhang Daniel S. Park Wei Han James Qin Anmol Gulati ... Zhifeng Chen Quoc V. Le Chung-Cheng Chiu Ruoming Pang Yonghui Wu SSL 86 176 0 27 Sep 2021
ChannelAugment: Improving generalization of multi-channel ASR by training with input channel randomization M. Gaudesi F. Weninger D. Sharma P. Zhan AAML 73 1 0 23 Sep 2021
Tied & Reduced RNN-T Decoder Rami Botros Tara N. Sainath R. David Emmanuel Guzman Wei Li Yanzhang He 86 55 0 15 Sep 2021
Efficient conformer: Progressive downsampling and grouped attention for automatic speech recognition Maxime Burchi Valentin Vielzeuf 73 88 0 31 Aug 2021
Multilingual Speech Recognition for Low-Resource Indian Languages using Multi-Task conformer Krishna D N Freshworks 33 7 0 22 Aug 2021
A Dual-Decoder Conformer for Multilingual Speech Recognition Krishna D N Freshworks 18 1 0 22 Aug 2021
W2v-BERT: Combining Contrastive Learning and Masked Language Modeling for Self-Supervised Speech Pre-Training Yu-An Chung Yu Zhang Wei Han Chung-Cheng Chiu James Qin Ruoming Pang Yonghui Wu SSL VLM 105 429 0 07 Aug 2021
SpecMix : A Mixed Sample Data Augmentation method for Training withTime-Frequency Domain Features Gwantae Kim D. Han Hanseok Ko 101 45 0 06 Aug 2021
Learning a Neural Diff for Speech Models J. Macoskey Grant P. Strimel Ariya Rastrow 59 2 0 03 Aug 2021
Noisy Training Improves E2E ASR for the Edge Dilin Wang Yuan Shangguan Haichuan Yang P. Chuang Jiatong Zhou Meng Li Ganesh Venkatesh Ozlem Kalinli Vikas Chandra 79 4 0 09 Jul 2021
Advancing CTC-CRF Based End-to-End Speech Recognition with Wordpieces and Conformers Huahuan Zheng Wenjie Peng Zhijian Ou Jinsong Zhang 96 5 0 07 Jul 2021
Multi-mode Transformer Transducer with Stochastic Future Context Kwangyoun Kim Felix Wu Prashant Sridhar Kyu Jeong Han Shinji Watanabe 71 10 0 17 Jun 2021
Multi-channel Opus compression for far-field automatic speech recognition with a fixed bitrate budget Lukas Drude Jahn Heymann A. Schwarz J. Valin 31 3 0 15 Jun 2021
SynthASR: Unlocking Synthetic Data for Speech Recognition A. Fazel Wei Yang Yulan Liu Roberto Barra-Chicote Yi Meng Roland Maas J. Droppo SyDa 110 51 0 14 Jun 2021
Noisy student-teacher training for robust keyword spotting Hyun-jin Park Pai Zhu Ignacio López Moreno Niranjan A. Subrahmanya NoLa 53 17 0 03 Jun 2021
Pushing the Limits of Non-Autoregressive Speech Recognition Edwin G. Ng Chung-Cheng Chiu Yu Zhang William Chan VLM 62 27 0 07 Apr 2021
SpeechStew: Simply Mix All Available Speech Recognition Data to Train One Large Neural Network William Chan Daniel S. Park Chris A. Lee Yu Zhang Quoc V. Le Mohammad Norouzi AI4TS 90 138 0 05 Apr 2021
A Practical Survey on Faster and Lighter Transformers Quentin Fournier G. Caron Daniel Aloise 137 105 0 26 Mar 2021
Less Is More: Improved RNN-T Decoding Using Limited Label Context and Path Merging Rohit Prabhavalkar Yanzhang He David Rybach S. Campbell A. Narayanan Trevor Strohman Tara N. Sainath 128 35 0 12 Dec 2020
Frame-level SpecAugment for Deep Convolutional Neural Networks in Hybrid ASR Systems Xinwei Li Yuanyuan Zhang Xiaodan Zhuang Daben Liu 33 6 0 07 Dec 2020
Streaming Multi-speaker ASR with RNN-T Ilya Sklyar A. Piunova Yulan Liu 80 37 0 23 Nov 2020
Improving RNN-T ASR Accuracy Using Context Audio A. Schwarz Ilya Sklyar Simon Wiesler 83 9 0 20 Nov 2020
Efficient Knowledge Distillation for RNN-Transducer Models S. Panchapagesan Daniel S. Park Chung-Cheng Chiu Yuan Shangguan Qiao Liang A. Gruenstein 73 54 0 11 Nov 2020
Improving RNN Transducer Based ASR with Auxiliary Tasks Chunxi Liu Frank Zhang Duc Le Suyoun Kim Yatharth Saraf Geoffrey Zweig 89 49 0 05 Nov 2020
Two-stage Textual Knowledge Distillation for End-to-End Spoken Language Understanding Seongbin Kim Gyuwan Kim Seongjin Shin Sangmin Lee VLM 62 20 0 25 Oct 2020
Pushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition Yu Zhang James Qin Daniel S. Park Wei Han Chung-Cheng Chiu Ruoming Pang Quoc V. Le Yonghui Wu VLM SSL 231 310 0 20 Oct 2020
KoSpeech: Open-Source Toolkit for End-to-End Korean Speech Recognition Soohwan Kim Seyoung Bae Cheolhwang Won VLM 33 5 0 07 Sep 2020
Parallel Rescoring with Transformer for Streaming On-Device Speech Recognition Wei Li James Qin Chung-Cheng Chiu Ruoming Pang Yanzhang He 85 14 0 30 Aug 2020
Conv-Transformer Transducer: Low Latency, Low Frame Rate, Streamable End-to-End Speech Recognition Wenyong Huang Wenchao Hu Y. Yeung Xiao Chen 81 50 0 13 Aug 2020
Surgical Mask Detection with Convolutional Neural Networks and Data Augmentations on Spectrograms Steffen Illium Robert Muller Andreas Sedlmeier Claudia Linnhoff-Popien 107 11 0 11 Aug 2020
Subword Regularization: An Analysis of Scalability and Generalization for End-to-End Automatic Speech Recognition Egor Lakomkin Jahn Heymann Ilya Sklyar Simon Wiesler 51 8 0 10 Aug 2020
A study on more realistic room simulation for far-field keyword spotting Eric Bezzam Robin Scheibler C. Cadoux Thibault Gisselbrecht 42 10 0 04 Jun 2020
Training Keyword Spotting Models on Non-IID Data with Federated Learning Andrew Straiton Hard Kurt Partridge Cameron Nguyen Niranjan A. Subrahmanya Aishanee Shah Pai Zhu Ignacio López Moreno Rajiv Mathews OOD FedML 74 67 0 21 May 2020
Improved Noisy Student Training for Automatic Speech Recognition Daniel S. Park Yu Zhang Ye Jia Wei Han Chung-Cheng Chiu Yue Liu Yonghui Wu Quoc V. Le 121 243 0 19 May 2020
Faster, Simpler and More Accurate Hybrid ASR Systems Using Wordpieces Frank Zhang Yongqiang Wang Xiaohui Zhang Chunxi Liu Yatharth Saraf Geoffrey Zweig 75 20 0 19 May 2020
Conformer: Convolution-augmented Transformer for Speech Recognition Anmol Gulati James Qin Chung-Cheng Chiu Niki Parmar Yu Zhang ... Wei Han Shibo Wang Zhengdong Zhang Yonghui Wu Ruoming Pang 231 3,179 0 16 May 2020
RNN-T Models Fail to Generalize to Out-of-Domain Audio: Causes and Solutions Chung-Cheng Chiu A. Narayanan Wei Han Rohit Prabhavalkar Yu Zhang ... Ruoming Pang Tara N. Sainath Patrick Nguyen Liangliang Cao Yonghui Wu 97 42 0 07 May 2020
ContextNet: Improving Convolutional Neural Networks for Automatic Speech Recognition with Global Context Wei Han Zhengdong Zhang Yu Zhang Jiahui Yu Chung-Cheng Chiu James Qin Anmol Gulati Ruoming Pang Yonghui Wu 110 264 0 07 May 2020
Semantic Mask for Transformer based End-to-End Speech Recognition Chengyi Wang Yu Wu Yujiao Du Jinyu Li Shujie Liu Liang Lu Shuo Ren Guoli Ye Sheng Zhao Ming Zhou 77 52 0 06 Dec 2019