Toward domain-invariant speech recognition via large scale training

16 August 2018

Papers citing "Toward domain-invariant speech recognition via large scale training"

38 / 38 papers shown

Title
Customizing Speech Recognition Model with Large Language Model Feedback Shaoshi Ling Guoli Ye 25 0 0 05 Jun 2025
Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures Kun Yuan V. Srivastav Tong Yu Joël L. Lavanchy J. Marescaux Pietro Mascagni Nassir Navab N. Padoy 199 23 0 27 Jul 2023
Robust Speech Recognition via Large-Scale Weak Supervision Alec Radford Jong Wook Kim Tao Xu Greg Brockman C. McLeavey Ilya Sutskever OffRL 230 3,770 0 06 Dec 2022
E2E Segmentation in a Two-Pass Cascaded Encoder ASR Model Wenjie Huang Shuo-yiin Chang Tara N. Sainath Yanzhang He David Rybach R. David Rohit Prabhavalkar Cyril Allauzen Cal Peyser Trevor Strohman 70 7 0 28 Nov 2022
An analysis of degenerating speech due to progressive dysarthria on ASR performance Katrin Tomanek Katie Seaver P. Jiang Richard Cave Lauren Harrel Jordan R. Green 55 8 0 31 Oct 2022
Comparison of Soft and Hard Target RNN-T Distillation for Large-scale ASR DongSeon Hwang K. Sim Yu Zhang Trevor Strohman 55 11 0 11 Oct 2022
Extracting Targeted Training Data from ASR Models, and How to Mitigate It Ehsan Amid Om Thakkar A. Narayanan Rajiv Mathews Franccoise Beaufays 46 9 0 18 Apr 2022
Pseudo Label Is Better Than Human Label DongSeon Hwang K. Sim Zhouyuan Huo Trevor Strohman 82 35 0 22 Mar 2022
Are E2E ASR models ready for an industrial usage? Valentin Vielzeuf G. Antipov 92 8 0 09 Dec 2021
Training end-to-end speech-to-text models on mobile phones S. Zitha Raghavendra Rao Suresh Pooja S B. Rao T. V. Prabhakar 53 1 0 07 Dec 2021
SNRi Target Training for Joint Speech Enhancement and Recognition Yuma Koizumi Shigeki Karita A. Narayanan S. Panchapagesan M. Bacchiani 75 15 0 01 Nov 2021
Cross-attention conformer for context modeling in speech enhancement for ASR A. Narayanan Chung-Cheng Chiu Tom O'Malley Quan Wang Yanzhang He 65 14 0 30 Oct 2021
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing Sanyuan Chen Chengyi Wang Zhengyang Chen Yu-Huan Wu Shujie Liu ... Yao Qian Jian Wu Micheal Zeng Xiangzhan Yu Furu Wei SSL 296 1,912 0 26 Oct 2021
Fast Contextual Adaptation with Neural Associative Memory for On-Device Personalized Speech Recognition Tsendsuren Munkhdalai K. Sim Angad Chandorkar Fan Gao Mason Chua Trevor Strohman F. Beaufays 75 34 0 05 Oct 2021
Large-scale ASR Domain Adaptation using Self- and Semi-supervised Learning DongSeon Hwang Ananya Misra Zhouyuan Huo Nikhil Siddhartha Shefali Garg David Qiu K. Sim Trevor Strohman F. Beaufays Yanzhang He 160 38 0 01 Oct 2021
BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition Yu Zhang Daniel S. Park Wei Han James Qin Anmol Gulati ... Zhifeng Chen Quoc V. Le Chung-Cheng Chiu Ruoming Pang Yonghui Wu SSL 86 176 0 27 Sep 2021
On-Device Personalization of Automatic Speech Recognition Models for Disordered Speech Katrin Tomanek Franccoise Beaufays Julie Cattiau Angad Chandorkar K. Sim 89 15 0 18 Jun 2021
Multi-channel Opus compression for far-field automatic speech recognition with a fixed bitrate budget Lukas Drude Jahn Heymann A. Schwarz J. Valin 23 3 0 15 Jun 2021
Sampling-Frequency-Independent Audio Source Separation Using Convolution Layer Based on Impulse Invariant Method Koichi Saito Tomohiko Nakamura Kohei Yatabe Yuma Koizumi Hiroshi Saruwatari BDL VLM 36 7 0 10 May 2021
SpeechStew: Simply Mix All Available Speech Recognition Data to Train One Large Neural Network William Chan Daniel S. Park Chris A. Lee Yu Zhang Quoc V. Le Mohammad Norouzi AI4TS 90 138 0 05 Apr 2021
Efficient Knowledge Distillation for RNN-Transducer Models S. Panchapagesan Daniel S. Park Chung-Cheng Chiu Yuan Shangguan Qiao Liang A. Gruenstein 73 54 0 11 Nov 2020
Cascaded encoders for unifying streaming and non-streaming ASR A. Narayanan Tara N. Sainath Ruoming Pang Jiahui Yu Chung-Cheng Chiu Rohit Prabhavalkar Ehsan Variani Trevor Strohman AuLLM 128 86 0 27 Oct 2020
Improving Tail Performance of a Deliberation E2E ASR Model Using a Large Text Corpus Cal Peyser S. Mavandadi Tara N. Sainath J. Apfel Ruoming Pang Shankar Kumar 84 46 0 24 Aug 2020
Deliberation Model Based Two-Pass End-to-End Speech Recognition Ke Hu Tara N. Sainath Ruoming Pang Rohit Prabhavalkar 92 87 0 17 Mar 2020
Toward Cross-Domain Speech Recognition with End-to-End Models T. Nguyen Sebastian Stüker A. Waibel 64 7 0 09 Mar 2020
Multi-channel Acoustic Modeling using Mixed Bitrate OPUS Compression Aparna Khare Shiva Sundaram Minhua Wu 27 3 0 01 Feb 2020
power-law nonlinearity with maximally uniform distribution criterion for improved neural network training in automatic speech recognition Chanwoo Kim Mehul Kumar Kwangyoun Kim Dhananjaya N. Gowda 58 9 0 22 Dec 2019
end-to-end training of a large vocabulary end-to-end speech recognition system Chanwoo Kim Sungsoo Kim Kwangyoun Kim Mehul Kumar Jiyeon Kim ... Eunhyang Kim Minkyoo Shin Shatrughan Singh Larry Heck Dhananjaya N. Gowda 61 27 0 22 Dec 2019
SpecAugment on Large Scale Datasets Daniel S. Park Yu Zhang Chung-Cheng Chiu Youzheng Chen Yue Liu William Chan Quoc V. Le Yonghui Wu 86 138 0 11 Dec 2019
A comparison of end-to-end models for long-form speech recognition Chung-Cheng Chiu Wei Han Yu Zhang Ruoming Pang S. Kishchenko ... Anjuli Kannan Rohit Prabhavalkar Zhiwen Chen Tara N. Sainath Yonghui Wu AuLLM 88 83 0 06 Nov 2019
Recognizing long-form speech using streaming end-to-end models A. Narayanan Rohit Prabhavalkar Chung-Cheng Chiu David Rybach Tara N. Sainath Trevor Strohman 79 130 0 24 Oct 2019
Optimizing Speech Recognition For The Edge Yuan Shangguan Jian Li Qiao Liang R. Álvarez Ian McGraw 78 64 0 26 Sep 2019
An Investigation Into On-device Personalization of End-to-end Automatic Speech Recognition Models K. Sim P. Zadrazil F. Beaufays 88 58 0 14 Sep 2019
A Speech Test Set of Practice Business Presentations with Additional Relevant Texts Dominik Machácek J. Kratochvíl Tereza Vojtechová Ondrej Bojar 42 9 0 02 Aug 2019
Teach an all-rounder with experts in different domains Zhao You Jane Polak Scowcroft Dong Yu 32 7 0 09 Jul 2019
Deep Learning for Audio Signal Processing Hendrik Purwins Yue Liu Tuomas Virtanen Jan Schlüter Shuo-yiin Chang Tara N. Sainath VLM 119 598 0 30 Apr 2019
Bridging the Gap Between Monaural Speech Enhancement and Recognition with Distortion-Independent Acoustic Modeling Peidong Wang Ke Tan DeLiang Wang 72 58 0 11 Mar 2019
Adversarial Discriminative Domain Adaptation Eric Tzeng Judy Hoffman Kate Saenko Trevor Darrell GAN OOD 306 4,687 0 17 Feb 2017