Multi-mode Transformer Transducer with Stochastic Future Context

17 June 2021

Kwangyoun Kim

Papers citing "Multi-mode Transformer Transducer with Stochastic Future Context"

24 / 24 papers shown

Title
Efficient Knowledge Distillation for RNN-Transducer Models S. Panchapagesan Daniel S. Park Chung-Cheng Chiu Yuan Shangguan Qiao Liang A. Gruenstein 31 53 0 11 Nov 2020
Cascaded encoders for unifying streaming and non-streaming ASR A. Narayanan Tara N. Sainath Ruoming Pang Jiahui Yu Chung-Cheng Chiu Rohit Prabhavalkar Ehsan Variani Trevor Strohman AuLLM 68 85 0 27 Oct 2020
Universal ASR: Unifying Streaming and Non-Streaming ASR Using a Single Encoder-Decoder Model Zhifu Gao Shiliang Zhang Ming Lei Ian Mcloughlin CVBM 35 15 0 27 Oct 2020
Pushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition Yu Zhang James Qin Daniel S. Park Wei Han Chung-Cheng Chiu Ruoming Pang Quoc V. Le Yonghui Wu VLM SSL 163 308 0 20 Oct 2020
Transformer Transducer: One Model Unifying Streaming and Non-streaming Speech Recognition Anshuman Tripathi Jaeyoung Kim Qian Zhang Han Lu Hasim Sak 11 42 0 07 Oct 2020
Developing RNN-T Models Surpassing High-Performance Hybrid Models with Customization Capability Jinyu Li Rui Zhao Zhong Meng Yanqing Liu Wenning Wei ... V. Mazalov Zhenghao Wang Lei He Sheng Zhao Jiawei Liu 24 107 0 30 Jul 2020
Conformer: Convolution-augmented Transformer for Speech Recognition Anmol Gulati James Qin Chung-Cheng Chiu Niki Parmar Yu Zhang ... Wei Han Shibo Wang Zhengdong Zhang Yonghui Wu Ruoming Pang 176 3,082 0 16 May 2020
Transformer Transducer: A Streamable Speech Recognition Model with Transformer Encoders and RNN-T Loss Qian Zhang Han Lu Hasim Sak Anshuman Tripathi Erik McDermott Stephen Koo Shankar Kumar 40 477 0 07 Feb 2020
SpecAugment on Large Scale Datasets Daniel S. Park Yu Zhang Chung-Cheng Chiu Youzheng Chen Yue Liu William Chan Quoc V. Le Yonghui Wu 32 137 0 11 Dec 2019
Minimum Bayes Risk Training of RNN-Transducer for End-to-End Speech Recognition Chao Weng Chengzhu Yu Jia Cui Chunlei Zhang Dong Yu 103 39 0 28 Nov 2019
A comparison of end-to-end models for long-form speech recognition Chung-Cheng Chiu Wei Han Yu Zhang Ruoming Pang S. Kishchenko ... Anjuli Kannan Rohit Prabhavalkar Zhiwen Chen Tara N. Sainath Yonghui Wu AuLLM 41 82 0 06 Nov 2019
Transformer-Transducer: End-to-End Speech Recognition with Self-Attention Ching-Feng Yeh Jay Mahadeokar Kaustubh Kalgaonkar Yongqiang Wang Duc Le Mahaveer Jain Kjell Schubert Christian Fuegen M. Seltzer 31 150 0 28 Oct 2019
SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition Daniel S. Park William Chan Yu Zhang Chung-Cheng Chiu Barret Zoph E. D. Cubuk Quoc V. Le VLM 136 3,435 0 18 Apr 2019
fairseq: A Fast, Extensible Toolkit for Sequence Modeling Myle Ott Sergey Edunov Alexei Baevski Angela Fan Sam Gross Nathan Ng David Grangier Michael Auli VLM FaML 61 3,141 0 01 Apr 2019
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova VLM SSL SSeg 753 93,936 0 11 Oct 2018
ESPnet: End-to-End Speech Processing Toolkit Shinji Watanabe Takaaki Hori Shigeki Karita Tomoki Hayashi Jiro Nishitoba ... Jahn Heymann Sanjeev Khudanpur Nanxin Chen Adithya Renduchintala Tsubasa Ochiai VLM 70 1,492 0 30 Mar 2018
Monotonic Chunkwise Attention Chung-Cheng Chiu Colin Raffel 48 255 0 14 Dec 2017
AISHELL-1: An Open-Source Mandarin Speech Corpus and A Speech Recognition Baseline Hui Bu Jiayu Du Xingyu Na Bengu Wu Hao Zheng CVBM 42 832 0 16 Sep 2017
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 304 129,831 0 12 Jun 2017
Online and Linear-Time Attention by Enforcing Monotonic Alignments Colin Raffel Minh-Thang Luong Peter J. Liu Ron J. Weiss Douglas Eck 47 258 0 03 Apr 2017
Gaussian Error Linear Units (GELUs) Dan Hendrycks Kevin Gimpel 136 4,934 0 27 Jun 2016
A Neural Transducer Navdeep Jaitly David Sussillo Quoc V. Le Oriol Vinyals Ilya Sutskever Samy Bengio AI4TS 32 48 0 16 Nov 2015
EESEN: End-to-End Speech Recognition using Deep RNN Models and WFST-based Decoding Yajie Miao M. Gowayyed Florian Metze 68 753 0 29 Jul 2015
Sequence Transduction with Recurrent Neural Networks Alex Graves 81 1,858 0 14 Nov 2012