Improving non-autoregressive end-to-end speech recognition with pre-trained acoustic and language models

25 January 2022

Pengyuan Zhang

Papers citing "Improving non-autoregressive end-to-end speech recognition with pre-trained acoustic and language models"

21 / 21 papers shown

Title
Improving Hybrid CTC/Attention End-to-end Speech Recognition with Pretrained Acoustic and Language Model Keqi Deng Songjun Cao Yike Zhang Long Ma VLM 25 31 0 14 Dec 2021
Improving Accent Identification and Accented Speech Recognition Under a Framework of Self-supervised Learning Keqi Deng Songjun Cao Long Ma 24 29 0 15 Sep 2021
Transformer-based end-to-end speech recognition with residual Gaussian-based self-attention Chen Liang Menglong Xu Xiao-Lei Zhang 38 8 0 29 Mar 2021
Fast End-to-End Speech Recognition via Non-Autoregressive Models and Cross-Modal Knowledge Transferring from BERT Ye Bai Jiangyan Yi J. Tao Zhengkun Tian Zhengqi Wen Shuai Zhang RALM 73 51 0 15 Feb 2021
Speech Recognition by Simply Fine-tuning BERT Wen-Chin Huang Chia-Hua Wu Shang-Bao Luo Kuan-Yu Chen Hsin-Min Wang Tomoki Toda 91 28 0 30 Jan 2021
Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for Low-resource Speech Recognition Cheng Yi Shiyu Zhou Bo Xu 67 40 0 17 Jan 2021
Applying Wav2vec2.0 to Speech Recognition in Various Low-resource Languages Cheng Yi Jianzhong Wang Ning Cheng Shiyu Zhou Bo Xu SSL VLM 53 82 0 22 Dec 2020
Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input Xingcheng Song Zhiyong Wu Yiheng Huang Chao Weng Dan Su Helen Meng 15 36 0 28 Oct 2020
CASS-NAT: CTC Alignment-based Single Step Non-autoregressive Transformer for Speech Recognition Ruchao Fan Wei Chu Peng Chang Jing Xiao 21 36 0 28 Oct 2020
Improved Mask-CTC for Non-Autoregressive End-to-End ASR Yosuke Higuchi Hirofumi Inaguma Shinji Watanabe Tetsuji Ogawa Tetsunori Kobayashi 37 61 0 26 Oct 2020
wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations Alexei Baevski Henry Zhou Abdel-rahman Mohamed Michael Auli SSL 143 5,677 0 20 Jun 2020
A Comparison of Label-Synchronous and Frame-Synchronous End-to-End Models for Speech Recognition Linhao Dong Cheng Yi Jianzong Wang Shiyu Zhou Shuang Xu X. Jia Bo Xu 39 17 0 20 May 2020
Spike-Triggered Non-Autoregressive Transformer for End-to-End Speech Recognition Zhengkun Tian Jiangyan Yi J. Tao Ye Bai Shuai Zhang Zhengqi Wen 46 54 0 16 May 2020
RoBERTa: A Robustly Optimized BERT Pretraining Approach Yinhan Liu Myle Ott Naman Goyal Jingfei Du Mandar Joshi Danqi Chen Omer Levy M. Lewis Luke Zettlemoyer Veselin Stoyanov AIMat 382 24,160 0 26 Jul 2019
CIF: Continuous Integrate-and-Fire for End-to-End Speech Recognition Linhao Dong Bo Xu 52 127 0 27 May 2019
fairseq: A Fast, Extensible Toolkit for Sequence Modeling Myle Ott Sergey Edunov Alexei Baevski Angela Fan Sam Gross Nathan Ng David Grangier Michael Auli VLM FaML 71 3,141 0 01 Apr 2019
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova VLM SSL SSeg 862 93,936 0 11 Oct 2018
AISHELL-2: Transforming Mandarin ASR Research Into Industrial Scale Jiayu Du Xingyu Na Xuechen Liu Hui Bu VLM 31 284 0 31 Aug 2018
ESPnet: End-to-End Speech Processing Toolkit Shinji Watanabe Takaaki Hori Shigeki Karita Tomoki Hayashi Jiro Nishitoba ... Jahn Heymann Sanjeev Khudanpur Nanxin Chen Adithya Renduchintala Tsubasa Ochiai VLM 76 1,492 0 30 Mar 2018
AISHELL-1: An Open-Source Mandarin Speech Corpus and A Speech Recognition Baseline Hui Bu Jiayu Du Xingyu Na Bengu Wu Hao Zheng CVBM 44 832 0 16 Sep 2017
Speech Recognition with Deep Recurrent Neural Networks Alex Graves Abdel-rahman Mohamed Geoffrey E. Hinton 138 8,503 0 22 Mar 2013