Improving RNN Transducer Modeling for End-to-End Speech Recognition

26 September 2019

Papers citing "Improving RNN Transducer Modeling for End-to-End Speech Recognition"

38 / 38 papers shown

Title
Anatomy of Industrial Scale Multilingual ASR Francis McCann Ramirez Luka Chkhetiani Andrew Ehrenberg R. McHardy Rami Botros ... Ahmed Efty Daniel McCrystal Sam Flamini Domenic Donato Takuya Yoshioka 36 7 0 15 Apr 2024
Bayes Risk Transducer: Transducer with Controllable Alignment Prediction Jinchuan Tian Jianwei Yu Hangting Chen Brian Yan Chao Weng Dong Yu Shinji Watanabe 37 1 0 19 Aug 2023
CIF-T: A Novel CIF-based Transducer Architecture for Automatic Speech Recognition Tian-Hao Zhang Dinghao Zhou Guiping Zhong Jiaming Zhou Baoxiang Li 20 3 0 26 Jul 2023
TST: Time-Sparse Transducer for Automatic Speech Recognition Xiaohui Zhang Mangui Liang Zhengkun Tian Jiangyan Yi J. Tao 14 0 0 17 Jul 2023
SURT 2.0: Advances in Transducer-based Multi-talker Speech Recognition Desh Raj Daniel Povey Sanjeev Khudanpur VLM 26 9 0 18 Jun 2023
Efficient Sequence Transduction by Jointly Predicting Tokens and Durations Hainan Xu Fei Jia Somshubra Majumdar Hengguan Huang Shinji Watanabe Boris Ginsburg 27 17 0 13 Apr 2023
Practical Conformer: Optimizing size, speed and flops of Conformer for on-Device and cloud ASR Rami Botros Anmol Gulati Tara N. Sainath K. Choromanski Ruoming Pang Trevor Strohman Weiran Wang Jiahui Yu MQ 26 3 0 31 Mar 2023
Exploring Turkish Speech Recognition via Hybrid CTC/Attention Architecture and Multi-feature Fusion Network Zeyu Ren Nurmemet Yolwas Huiru Wang Wushour Slamu 21 0 0 22 Mar 2023
Building High-accuracy Multilingual ASR with Gated Language Experts and Curriculum Training Eric Sun Jinyu Li Yuxuan Hu Yilun Zhu Long Zhou ... Peidong Wang Linquan Liu Shujie Liu Ed Lin Yifan Gong 29 6 0 01 Mar 2023
Massively Multilingual Shallow Fusion with Large Language Models Ke Hu Tara N. Sainath Bo-wen Li Nan Du Yanping Huang Andrew M. Dai Yu Zhang Rodrigo Cabrera Z. Chen Trevor Strohman 35 13 0 17 Feb 2023
Neural Transducer Training: Reduced Memory Consumption with Sample-wise Computation Stefan Braun Erik McDermott Roger Hsiao 37 1 0 29 Nov 2022
Joint Audio/Text Training for Transformer Rescorer of Streaming Speech Recognition Suyoun Kim Ke Li Lucas Kabela Rongqing Huang Jiedan Zhu Ozlem Kalinli Duc Le 25 8 0 31 Oct 2022
JOIST: A Joint Speech and Text Streaming Model For ASR Tara N. Sainath Rohit Prabhavalkar Ankur Bapna Yu Zhang Zhouyuan Huo Zhehuai Chen Bo-wen Li Weiran Wang Trevor Strohman RALM AuLLM 51 35 0 13 Oct 2022
Turn-Taking Prediction for Natural Conversational Speech Shuo-yiin Chang Bo-wen Li Tara N. Sainath Chaoyang Zhang Trevor Strohman Qiao Liang Yanzhang He 40 18 0 29 Aug 2022
Data Augmentation for Low-Resource Quechua ASR Improvement Rodolfo Zevallos Núria Bel Guillermo Cámbara Mireia Farrús Jordi Luque VLM SyDa 19 6 0 14 Jul 2022
Pruned RNN-T for fast, memory-efficient ASR training Fangjun Kuang Liyong Guo Wei Kang Long Lin Mingshuang Luo Zengwei Yao Daniel Povey 21 64 0 23 Jun 2022
Heterogeneous Data-Centric Architectures for Modern Data-Intensive Applications: Case Studies in Machine Learning and Databases Geraldo F. Oliveira Amirali Boroumand Saugata Ghose Juan Gómez Luna O. Mutlu 28 7 0 29 May 2022
Minimising Biasing Word Errors for Contextual ASR with the Tree-Constrained Pointer Generator Guangzhi Sun C. Zhang P. Woodland 32 14 0 18 May 2022
Deep Learning Enabled Semantic Communications with Speech Recognition and Synthesis Zhenzi Weng Zhijin Qin Xiaoming Tao Chengkang Pan Guangyi Liu Geoffrey Ye Li 33 132 0 09 May 2022
4-bit Conformer with Native Quantization Aware Training for Speech Recognition Shaojin Ding Phoenix Meadowlark Yanzhang He Lukasz Lew Shivani Agrawal Oleg Rybakov MQ 31 32 0 29 Mar 2022
Integrating Text Inputs For Training and Adapting RNN Transducer ASR Models Samuel Thomas Brian Kingsbury G. Saon H. Kuo 33 25 0 26 Feb 2022
Improving the fusion of acoustic and text representations in RNN-T Chao Zhang Bo-wen Li Zhiyun Lu Tara N. Sainath Shuo-yiin Chang AI4CE 43 12 0 25 Jan 2022
Google Neural Network Models for Edge Devices: Analyzing and Mitigating Machine Learning Inference Bottlenecks Amirali Boroumand Saugata Ghose Berkin Akin Ravi Narayanaswami Geraldo F. Oliveira Xiaoyu Ma Eric Shiu O. Mutlu 20 81 0 29 Sep 2021
Factorized Neural Transducer for Efficient Language Model Adaptation Xie Chen Zhong Meng S. Parthasarathy Jinyu Li 21 39 0 27 Sep 2021
Tied & Reduced RNN-T Decoder Rami Botros Tara N. Sainath R. David Emmanuel Guzman Wei Li Yanzhang He 38 55 0 15 Sep 2021
4-bit Quantization of LSTM-based Speech Recognition Models A. Fasoli Chia-Yu Chen Mauricio Serrano Xiao Sun Naigang Wang ... Xiaodong Cui Brian Kingsbury Wei Zhang Zoltán Tüske K. Gopalakrishnan MQ 26 21 0 27 Aug 2021
Integrating Dialog History into End-to-End Spoken Language Understanding Systems Jatin Ganhotra Samuel Thomas H. Kuo Sachindra Joshi G. Saon Zoltán Tüske Brian Kingsbury 27 10 0 18 Aug 2021
Learning a Neural Diff for Speech Models J. Macoskey Grant P. Strimel Ariya Rastrow 13 2 0 03 Aug 2021
Advancing RNN Transducer Technology for Speech Recognition G. Saon Zoltan Tueske Daniel Bolaños Brian Kingsbury 34 86 0 17 Mar 2021
Wav2vec-C: A Self-supervised Model for Speech Representation Learning Samik Sadhu Di He Che-Wei Huang Sri Harish Reddy Mallidi Minhua Wu Ariya Rastrow A. Stolcke J. Droppo Roland Maas SSL 20 48 0 09 Mar 2021
Mitigating Edge Machine Learning Inference Bottlenecks: An Empirical Study on Accelerating Google Edge Models Amirali Boroumand Saugata Ghose Berkin Akin Ravi Narayanaswami Geraldo F. Oliveira Xiaoyu Ma Eric Shiu O. Mutlu 18 28 0 01 Mar 2021
Dual Application of Speech Enhancement for Automatic Speech Recognition Ashutosh Pandey Chunxi Liu Yun Wang Yatharth Saraf 41 37 0 07 Nov 2020
Improving RNN Transducer Based ASR with Auxiliary Tasks Chunxi Liu Frank Zhang Duc Le Suyoun Kim Yatharth Saraf Geoffrey Zweig 26 49 0 05 Nov 2020
Improved Neural Language Model Fusion for Streaming Recurrent Neural Network Transducer Suyoun Kim Shangguan Yuan Jay Mahadeokar A. Bruguier Christian Fuegen M. Seltzer Duc Le 10 28 0 26 Oct 2020
Modular End-to-end Automatic Speech Recognition Framework for Acoustic-to-word Model Qi Liu Zhehuai Chen Hao Li Mingkun Huang Yizhou Lu Kai Yu 16 6 0 31 Jul 2020
Attention-based Transducer for Online Speech Recognition Bin Wang Yan Yin Hui-Ching Lin 18 4 0 18 May 2020
Exploring Pre-training with Alignments for RNN Transducer based End-to-End Speech Recognition Hu Hu Rui Zhao Jinyu Li Liang Lu Jiawei Liu 19 27 0 01 May 2020
High-Accuracy and Low-Latency Speech Recognition with Two-Head Contextual Layer Trajectory LSTM Model Jinyu Li Rui Zhao Eric Sun J. H. M. Wong Amit Das Zhong Meng Jiawei Liu VLM 21 24 0 17 Mar 2020