Title
Efficient Adapter Finetuning for Tail Languages in Streaming Multilingual ASR Junwen Bai Bo-wen Li Qiujia Li Tara N. Sainath Trevor Strohman 38 3 0 17 Jan 2024
Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition Vahid Noroozi Somshubra Majumdar Ankur Kumar Jagadeesh Balam Boris Ginsburg 25 10 0 27 Dec 2023
Knowledge Distillation from Non-streaming to Streaming ASR Encoder using Auxiliary Non-streaming Layer Kyuhong Shim Jinkyu Lee Simyoung Chang Kyuwoong Hwang 40 2 0 31 Aug 2023
Dual-Attention Neural Transducers for Efficient Wake Word Spotting in Speech Recognition Saumya Yashmohini Sahai Jing Liu Thejaswi Muniyappa Kanthashree Mysore Sathyendra Anastasios Alexandridis ... Ross McGowan Ariya Rastrow Feng-Ju Chang Athanasios Mouchtaris Siegfried Kunzmann 39 5 0 03 Apr 2023
Practical Conformer: Optimizing size, speed and flops of Conformer for on-Device and cloud ASR Rami Botros Anmol Gulati Tara N. Sainath K. Choromanski Ruoming Pang Trevor Strohman Weiran Wang Jiahui Yu MQ 26 3 0 31 Mar 2023
Minimum Latency Training of Sequence Transducers for Streaming End-to-End Speech Recognition Yusuke Shinohara Shinji Watanabe AI4TS 23 9 0 04 Nov 2022
JOIST: A Joint Speech and Text Streaming Model For ASR Tara N. Sainath Rohit Prabhavalkar Ankur Bapna Yu Zhang Zhouyuan Huo Zhehuai Chen Bo-wen Li Weiran Wang Trevor Strohman RALM AuLLM 51 35 0 13 Oct 2022
Comparison of Soft and Hard Target RNN-T Distillation for Large-scale ASR DongSeon Hwang K. Sim Yu Zhang Trevor Strohman 14 10 0 11 Oct 2022
ConvRNN-T: Convolutional Augmented Recurrent Neural Network Transducers for Streaming Speech Recognition Martin H. Radfar Rohit Barnwal R. Swaminathan Feng-Ju Chang Grant P. Strimel Nathan Susanj Athanasios Mouchtaris 31 13 0 29 Sep 2022
A Universally-Deployable ASR Frontend for Joint Acoustic Echo Cancellation, Speech Enhancement, and Voice Separation Tom O'Malley A. Narayanan Quan Wang 27 5 0 14 Sep 2022
Learning a Dual-Mode Speech Recognition Model via Self-Pruning Chunxi Liu Yuan Shangguan Haichuan Yang Yangyang Shi Raghuraman Krishnamoorthi Ozlem Kalinli SSL 29 7 0 25 Jul 2022
Improving Deliberation by Text-Only and Semi-Supervised Training Ke Hu Tara N. Sainath Yanzhang He Rohit Prabhavalkar Trevor Strohman S. Mavandadi Weiran Wang 28 12 0 29 Jun 2022
Contextual Adapters for Personalized Speech Recognition in Neural Transducers Kanthashree Mysore Sathyendra Thejaswi Muniyappa Feng-Ju Chang Jing Liu Jinru Su Grant P. Strimel Athanasios Mouchtaris Siegfried Kunzmann 19 75 0 26 May 2022
A Conformer-based Waveform-domain Neural Acoustic Echo Canceller Optimized for ASR Accuracy S. Panchapagesan A. Narayanan T. Shabestary Shuai Shao N. Howard Alex Park James Walker A. Gruenstein 24 3 0 06 May 2022
Mask scalar prediction for improving robust automatic speech recognition A. Narayanan James Walker S. Panchapagesan N. Howard Yuma Koizumi 19 4 0 26 Apr 2022
Personal VAD 2.0: Optimizing Personal Voice Activity Detection for On-Device Speech Recognition Shaojin Ding R. Rikhye Qiao Liang Yanzhang He Quan Wang A. Narayanan Tom O'Malley Ian McGraw 21 26 0 08 Apr 2022
Streaming parallel transducer beam search with fast-slow cascaded encoders Jay Mahadeokar Yangyang Shi Ke Li Duc Le Jiedan Zhu Vikas Chandra Ozlem Kalinli M. Seltzer 29 15 0 29 Mar 2022
Cross-attention conformer for context modeling in speech enhancement for ASR A. Narayanan Chung-Cheng Chiu Tom O'Malley Quan Wang Yanzhang He 24 14 0 30 Oct 2021
Data-Driven Offline Optimization For Architecting Hardware Accelerators Aviral Kumar Amir Yazdanbakhsh Milad Hashemi Kevin Swersky Sergey Levine 27 36 0 20 Oct 2021
Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks Sangeeta Srivastava Yun Wang Andros Tjandra Anurag Kumar Chunxi Liu Kritika Singh Yatharth Saraf SSL 33 24 0 14 Oct 2021
Partial Variable Training for Efficient On-Device Federated Learning Tien-Ju Yang Dhruv Guliani F. Beaufays Giovanni Motta FedML 24 25 0 11 Oct 2021
Exploring Heterogeneous Characteristics of Layers in ASR Models for More Efficient Training Lillian Zhou Dhruv Guliani Andreas Kabel Giovanni Motta F. Beaufays 23 1 0 08 Oct 2021
Enabling On-Device Training of Speech Recognition Models with Federated Dropout Dhruv Guliani Lillian Zhou Changwan Ryu Tien-Ju Yang Harry Zhang Yong Xiao F. Beaufays Giovanni Motta FedML 33 16 0 07 Oct 2021
Integrating Categorical Features in End-to-End ASR Rongqing Huang 20 1 0 06 Oct 2021
Tied & Reduced RNN-T Decoder Rami Botros Tara N. Sainath R. David Emmanuel Guzman Wei Li Yanzhang He 38 55 0 15 Sep 2021
Scaling End-to-End Models for Large-Scale Multilingual ASR Bo-wen Li Ruoming Pang Tara N. Sainath Anmol Gulati Yu Zhang James Qin Parisa Haghani Yifan Jiang Min Ma Junwen Bai CLL 31 76 0 30 Apr 2021
Multitask Training with Text Data for End-to-End Speech Recognition Peidong Wang Tara N. Sainath Ron J. Weiss 16 27 0 27 Oct 2020