v1v2v3 (latest)

A Conformer Based Acoustic Model for Robust Automatic Speech Recognition

1 March 2022

Papers citing "A Conformer Based Acoustic Model for Robust Automatic Speech Recognition"

22 / 22 papers shown

Title
Joint Training of Speech Enhancement and Self-supervised Model for Noise-robust ASR Qiu-shi Zhu Jie Zhang Zitian Zhang Lirong Dai 87 15 0 26 May 2022
End-to-End Integration of Speech Recognition, Speech Enhancement, and Self-Supervised Learning Representation Xuankai Chang Takashi Maekaku Yuya Fujita Shinji Watanabe VLM 100 46 0 01 Apr 2022
Improving Noise Robustness of Contrastive Speech Representation Learning with Speech Reconstruction Heming Wang Yao Qian Xiaofei Wang Yiming Wang Chengyi Wang Shujie Liu Takuya Yoshioka Jinyu Li DeLiang Wang 88 29 0 28 Oct 2021
Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs for Robust Speech Recognition Yiming Wang Jinyu Li Heming Wang Yao Qian Chengyi Wang Yu Wu 73 48 0 11 Oct 2021
Scenario Aware Speech Recognition: Advancements for Apollo Fearless Steps & CHiME-4 Corpora Szu-Jui Chen Wei Xia John H. L. Hansen 59 9 0 23 Sep 2021
End-to-end Neural Diarization: From Transformer to Conformer Yi Y. Liu Eunjung Han Chul Lee A. Stolcke 122 41 0 14 Jun 2021
The 2020 ESPnet update: new features, broadened applications, performance improvements, and future plans Shinji Watanabe Florian Boyer Xuankai Chang Pengcheng Guo Tomoki Hayashi ... Shigeki Karita Chenda Li Jing Shi Aswin Shanmugam Subramanian Wangyou Zhang VLM 90 38 0 23 Dec 2020
Recent Developments on ESPnet Toolkit Boosted by Conformer Pengcheng Guo Florian Boyer Xuankai Chang Tomoki Hayashi Yosuke Higuchi ... Jing Shi Shinji Watanabe Kun Wei Wangyou Zhang Yuekai Zhang 81 263 0 26 Oct 2020
Continuous Speech Separation with Conformer Sanyuan Chen Yu-Huan Wu Zhuo Chen Jian Wu Jinyu Li Takuya Yoshioka Chengyi Wang Shujie Liu M. Zhou 68 130 0 13 Aug 2020
Conformer: Convolution-augmented Transformer for Speech Recognition Anmol Gulati James Qin Chung-Cheng Chiu Niki Parmar Yu Zhang ... Wei Han Shibo Wang Zhengdong Zhang Yonghui Wu Ruoming Pang 229 3,164 0 16 May 2020
CHiME-6 Challenge:Tackling Multispeaker Speech Recognition for Unsegmented Recordings Shinji Watanabe Michael I. Mandel Jon Barker Emmanuel Vincent Ashish Arora ... Emmanuel Vincent Shota Horiguchi Naoyuki Kanda Takuya Yoshioka Neville Ryant 72 308 0 20 Apr 2020
On Layer Normalization in the Transformer Architecture Ruibin Xiong Yunchang Yang Di He Kai Zheng Shuxin Zheng Chen Xing Huishuai Zhang Yanyan Lan Liwei Wang Tie-Yan Liu AI4CE 153 998 0 12 Feb 2020
Transformer Transducer: A Streamable Speech Recognition Model with Transformer Encoders and RNN-T Loss Qian Zhang Han Lu Hasim Sak Anshuman Tripathi Erik McDermott Stephen Koo Shankar Kumar 97 481 0 07 Feb 2020
A Comparative Study on Transformer vs RNN in Speech Applications Shigeki Karita Nanxin Chen Tomoki Hayashi Takaaki Hori Hirofumi Inaguma ... Ryuichi Yamamoto Xiao-fei Wang Shinji Watanabe Takenori Yoshimura Wangyou Zhang 84 721 0 13 Sep 2019
Learning Deep Transformer Models for Machine Translation Qiang Wang Bei Li Tong Xiao Jingbo Zhu Changliang Li Derek F. Wong Lidia S. Chao 82 672 0 05 Jun 2019
ESPnet: End-to-End Speech Processing Toolkit Shinji Watanabe Takaaki Hori Shigeki Karita Tomoki Hayashi Jiro Nishitoba ... Jahn Heymann Sanjeev Khudanpur Nanxin Chen Adithya Renduchintala Tsubasa Ochiai VLM 122 1,515 0 30 Mar 2018
The fifth 'CHiME' Speech Separation and Recognition Challenge: Dataset, task and baselines Jon Barker Shinji Watanabe Emmanuel Vincent J. Trmal 64 685 0 28 Mar 2018
Building state-of-the-art distant speech recognition using the CHiME-4 challenge with a setup of speech enhancement baseline Szu-Jui Chen Aswin Shanmugam Subramanian Hainan Xu Shinji Watanabe 45 77 0 27 Mar 2018
Exploring Architectures, Data and Units For Streaming End-to-End Speech Recognition with RNN-Transducer Kanishka Rao Hasim Sak Rohit Prabhavalkar AI4TS 86 348 0 02 Jan 2018
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 808 132,725 0 12 Jun 2017
Wide Residual Networks Sergey Zagoruyko N. Komodakis 362 8,005 0 23 May 2016
Deep Speech 2: End-to-End Speech Recognition in English and Mandarin Dario Amodei Rishita Anubhai Eric Battenberg Carl Case Jared Casper ... Chong-Jun Wang Bo Xiao Dani Yogatama J. Zhan Zhenyao Zhu 146 2,976 0 08 Dec 2015