Building competitive direct acoustics-to-word models for English conversational speech recognition

8 December 2017

Kartik Audhkhasi

Bhuvana Ramabhadran

Papers citing "Building competitive direct acoustics-to-word models for English conversational speech recognition"

29 / 29 papers shown

Title
Improving Transformer-based Conversational ASR by Inter-Sentential Attention Mechanism Kun Wei Pengcheng Guo Ning Jiang 53 11 0 02 Jul 2022
Spanish and English Phoneme Recognition by Training on Simulated Classroom Audio Recordings of Collaborative Learning Environments Mario Esparza 24 0 0 21 Feb 2022
Advanced Long-context End-to-end Speech Recognition Using Context-expanded Transformers Takaaki Hori Niko Moritz Chiori Hori Jonathan Le Roux 30 34 0 19 Apr 2021
HMM-Free Encoder Pre-Training for Streaming RNN Transducer Lu Huang J. Sun Yu Tang Junfeng Hou Jinkun Chen Jun Zhang Zejun Ma 25 3 0 02 Apr 2021
End-to-End Automatic Speech Recognition with Deep Mutual Learning Ryo Masumura Mana Ihori Akihiko Takashima Tomohiro Tanaka Takanori Ashihara 24 5 0 16 Feb 2021
Streaming end-to-end multi-talker speech recognition Liang Lu Naoyuki Kanda Jinyu Li Jiawei Liu 13 41 0 26 Nov 2020
Transformer with Bidirectional Decoder for Speech Recognition Xi Chen Songyang Zhang Dandan Song P. Ouyang Shouyi Yin 18 13 0 11 Aug 2020
Modular End-to-end Automatic Speech Recognition Framework for Acoustic-to-word Model Qi Liu Zhehuai Chen Hao Li Mingkun Huang Yizhou Lu Kai Yu 21 6 0 31 Jul 2020
Minimum Latency Training Strategies for Streaming Sequence-to-Sequence ASR Hirofumi Inaguma Yashesh Gaur Liang Lu Jinyu Li Jiawei Liu AI4TS 27 46 0 10 Apr 2020
A Density Ratio Approach to Language Model Fusion in End-To-End Automatic Speech Recognition Erik McDermott Hasim Sak Ehsan Variani 22 112 0 26 Feb 2020
Accelerating RNN Transducer Inference via One-Step Constrained Beam Search Juntae Kim Yoonhan Lee 20 22 0 10 Feb 2020
Minimum Bayes Risk Training of RNN-Transducer for End-to-End Speech Recognition Chao Weng Chengzhu Yu Jia Cui Chunlei Zhang Dong Yu 89 39 0 28 Nov 2019
Improving sequence-to-sequence speech recognition training with on-the-fly data augmentation T. Nguyen S. Stueker Jan Niehues A. Waibel 11 98 0 29 Oct 2019
Recognizing long-form speech using streaming end-to-end models A. Narayanan Rohit Prabhavalkar Chung-Cheng Chiu David Rybach Tara N. Sainath Trevor Strohman 29 129 0 24 Oct 2019
G2G: TTS-Driven Pronunciation Learning for Graphemic Hybrid ASR Duc Le T. Koehler Christian Fuegen M. Seltzer 30 16 0 22 Oct 2019
Espresso: A Fast End-to-end Neural Speech Recognition Toolkit Yiming Wang Tongfei Chen Hainan Xu Shuoyang Ding Hang Lv Yiwen Shao Nanyun Peng Lei Xie Shinji Watanabe Sanjeev Khudanpur VLM 27 73 0 18 Sep 2019
Word-level Speech Recognition with a Letter to Word Encoder R. Collobert Awni Y. Hannun Gabriel Synnaeve 3DV 19 4 0 10 Jun 2019
Acoustic-to-Word Models with Conversational Context Information Suyoun Kim Florian Metze 22 7 0 21 May 2019
Guiding CTC Posterior Spike Timings for Improved Posterior Fusion and Knowledge Distillation Gakuto Kurata Kartik Audhkhasi 16 46 0 17 Apr 2019
A Multi-Task Learning Framework for Overcoming the Catastrophic Forgetting in Automatic Speech Recognition Jiabin Xue Jiqing Han Tieran Zheng Xiang Gao Jiaxing Guo CLL 11 9 0 17 Apr 2019
Using multi-task learning to improve the performance of acoustic-to-word and conventional hybrid models T. Nguyen Sebastian Stüker A. Waibel 30 1 0 02 Feb 2019
Zero-shot keyword spotting for visual speech recognition in-the-wild Themos Stafylakis Georgios Tzimiropoulos 32 38 0 23 Jul 2018
Hierarchical Multi Task Learning With CTC Ramon Sanabria Florian Metze 19 50 0 18 Jul 2018
Hierarchical Multitask Learning for CTC-based Speech Recognition Kalpesh Krishna Shubham Toshniwal Karen Livescu 19 44 0 17 Jul 2018
A GPU-based WFST Decoder with Exact Lattice Generation Zhehuai Chen Justin Luitjens Hainan Xu Yiming Wang Daniel Povey Sanjeev Khudanpur 13 17 0 09 Apr 2018
Advancing Acoustic-to-Word CTC Model Jinyu Li Guoli Ye Amit Das Rui Zhao Jiawei Liu 22 96 0 15 Mar 2018
Sequence Prediction with Neural Segmental Models Hao Tang 29 2 0 05 Sep 2017
Combining Residual Networks with LSTMs for Lipreading Themos Stafylakis Georgios Tzimiropoulos VLM 32 307 0 12 Mar 2017
End-to-End ASR-free Keyword Search from Speech Kartik Audhkhasi Andrew Rosenberg A. Sethy Bhuvana Ramabhadran Brian Kingsbury 18 111 0 13 Jan 2017