Conformer: Convolution-augmented Transformer for Speech Recognition

16 May 2020

Papers citing "Conformer: Convolution-augmented Transformer for Speech Recognition"

49 / 1,749 papers shown

Title
The 2020 ESPnet update: new features, broadened applications, performance improvements, and future plans Shinji Watanabe Florian Boyer Xuankai Chang Pengcheng Guo Tomoki Hayashi ... Shigeki Karita Chenda Li Jing Shi Aswin Shanmugam Subramanian Wangyou Zhang VLM 47 38 0 23 Dec 2020
A review of on-device fully neural end-to-end automatic speech recognition algorithms Chanwoo Kim Dhananjaya N. Gowda Dongsoo Lee Jiyeon Kim Ankur Kumar Sungsoo Kim Abhinav Garg C. Han 27 27 0 14 Dec 2020
VoxSRC 2020: The Second VoxCeleb Speaker Recognition Challenge Arsha Nagrani Joon Son Chung Jaesung Huh Andrew Brown Ernesto Coto Weidi Xie Mitchell McLaren D. Reynolds Andrew Zisserman 21 74 0 12 Dec 2020
Less Is More: Improved RNN-T Decoding Using Limited Label Context and Path Merging Rohit Prabhavalkar Yanzhang He David Rybach S. Campbell A. Narayanan Trevor Strohman Tara N. Sainath 49 35 0 12 Dec 2020
Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech Recognition Binbin Zhang Di Wu Zhuoyuan Yao Xiong Wang F. Yu Chao Yang Liyong Guo Yaguang Hu Lei Xie X. Lei 29 77 0 10 Dec 2020
Machine Learning for Cataract Classification and Grading on Ophthalmic Imaging Modalities: A Survey Xiaoqin Zhang Yan Hu Zunjie Xiao Jiansheng Fang Risa Higashita Jiang-Dong Liu 48 41 0 09 Dec 2020
A Better and Faster End-to-End Model for Streaming ASR Bo-wen Li Anmol Gulati Jiahui Yu Tara N. Sainath Chung-Cheng Chiu ... Wei Han Qiao Liang Yu Zhang Trevor Strohman Yonghui Wu AuLLM 25 123 0 21 Nov 2020
Efficient Knowledge Distillation for RNN-Transducer Models S. Panchapagesan Daniel S. Park Chung-Cheng Chiu Yuan Shangguan Qiao Liang A. Gruenstein 23 53 0 11 Nov 2020
Data Augmentation For Children's Speech Recognition -- The "Ethiopian" System For The SLT 2021 Children Speech Recognition Challenge Guoguo Chen Xingyu Na Yongqing Wang Zhiyong Yan Junbo Zhang Sifan Ma Yujun Wang 27 19 0 09 Nov 2020
Efficient End-to-End Speech Recognition Using Performers in Conformers Peidong Wang DeLiang Wang 25 3 0 09 Nov 2020
Fine-grained Style Modeling, Transfer and Prediction in Text-to-Speech Synthesis via Phone-Level Content-Style Disentanglement Daxin Tan Tan Lee 24 21 0 08 Nov 2020
Improving RNN Transducer Based ASR with Auxiliary Tasks Chunxi Liu Frank Zhang Duc Le Suyoun Kim Yatharth Saraf Geoffrey Zweig 26 49 0 05 Nov 2020
Improving RNN transducer with normalized jointer network Mingkun Huang Jun Zhang Meng Cai Yang Zhang Jiali Yao Yongbin You Yi He Zejun Ma 19 7 0 03 Nov 2020
Dynamic latency speech recognition with asynchronous revision Mingkun Huang Meng Cai Jun Zhang Yang Zhang Yongbin You Yi He Zejun Ma BDL 16 2 0 03 Nov 2020
Streaming Attention-Based Models with Augmented Memory for End-to-End Speech Recognition Ching-Feng Yeh Yongqiang Wang Yangyang Shi Chunyang Wu Frank Zhang Julian Chan M. Seltzer AI4TS RALM 31 8 0 03 Nov 2020
Multitask Learning and Joint Optimization for Transformer-RNN-Transducer Speech Recognition J. Jeon Eesung Kim 4 13 0 02 Nov 2020
CASS-NAT: CTC Alignment-based Single Step Non-autoregressive Transformer for Speech Recognition Ruchao Fan Wei Chu Peng Chang Jing Xiao 6 36 0 28 Oct 2020
Transformer in action: a comparative study of transformer-based acoustic models for large scale speech recognition applications Yongqiang Wang Yangyang Shi Frank Zhang Chunyang Wu Julian Chan Ching-Feng Yeh Alex Xiao 18 21 0 27 Oct 2020
Cascaded encoders for unifying streaming and non-streaming ASR A. Narayanan Tara N. Sainath Ruoming Pang Jiahui Yu Chung-Cheng Chiu Rohit Prabhavalkar Ehsan Variani Trevor Strohman AuLLM 8 85 0 27 Oct 2020
Multitask Training with Text Data for End-to-End Speech Recognition Peidong Wang Tara N. Sainath Ron J. Weiss 16 27 0 27 Oct 2020
Recent Developments on ESPnet Toolkit Boosted by Conformer Pengcheng Guo Florian Boyer Xuankai Chang Tomoki Hayashi Yosuke Higuchi ... Jing Shi Shinji Watanabe Kun Wei Wangyou Zhang Yuekai Zhang 45 262 0 26 Oct 2020
HarperValleyBank: A Domain-Specific Spoken Dialog Corpus Mike Wu J. Nafziger A. Scodary Andrew L. Maas 31 17 0 26 Oct 2020
Improved Mask-CTC for Non-Autoregressive End-to-End ASR Yosuke Higuchi Hirofumi Inaguma Shinji Watanabe Tetsuji Ogawa Tetsunori Kobayashi 15 61 0 26 Oct 2020
Unsupervised Learning of Disentangled Speech Content and Style Representation Andros Tjandra Ruoming Pang Yu Zhang Shigeki Karita BDL DRL 23 15 0 24 Oct 2020
Transformer-based End-to-End Speech Recognition with Local Dense Synthesizer Attention Menglong Xu Shengqiang Li Xiao-Lei Zhang 27 31 0 23 Oct 2020
Improving Streaming Automatic Speech Recognition With Non-Streaming Model Distillation On Unsupervised Data Thibault Doutre Wei Han Min Ma Zhiyun Lu Chung-Cheng Chiu Ruoming Pang A. Narayanan Ananya Misra Yu Zhang Liangliang Cao 69 22 0 22 Oct 2020
Sequence-to-sequence Singing Voice Synthesis with Perceptual Entropy Loss Jiatong Shi Shuai Guo Nan Huo Yuekai Zhang Qin Jin 26 27 0 22 Oct 2020
Perceptual Loss based Speech Denoising with an ensemble of Audio Pattern Recognition and Self-Supervised Models Saurabh Kataria Jesús Villalba Najim Dehak VLM SSL 26 34 0 22 Oct 2020
Rethinking Evaluation in ASR: Are Our Models Robust Enough? Tatiana Likhomanenko Qiantong Xu Vineel Pratap Paden Tomasello Jacob Kahn Gilad Avidov R. Collobert Gabriel Synnaeve 39 98 0 22 Oct 2020
SlimIPL: Language-Model-Free Iterative Pseudo-Labeling Tatiana Likhomanenko Qiantong Xu Jacob Kahn Gabriel Synnaeve R. Collobert VLM 29 61 0 22 Oct 2020
Microsoft Speaker Diarization System for the VoxCeleb Speaker Recognition Challenge 2020 Xiong Xiao Naoyuki Kanda Zhuo Chen Tianyan Zhou Takuya Yoshioka ... Yu-Huan Wu Jian Wu Shujie Liu Jinyu Li Jiawei Liu 27 62 0 22 Oct 2020
Self-training and Pre-training are Complementary for Speech Recognition Qiantong Xu Alexei Baevski Tatiana Likhomanenko Paden Tomasello Alexis Conneau R. Collobert Gabriel Synnaeve Michael Auli SSL VLM 42 170 0 22 Oct 2020
Developing Real-time Streaming Transformer Transducer for Speech Recognition on Large-scale Dataset Xie Chen Yu-Huan Wu Zhenghao Wang Shujie Liu Jinyu Li 22 169 0 22 Oct 2020
FastEmit: Low-latency Streaming ASR with Sequence-level Emission Regularization Jiahui Yu Chung-Cheng Chiu Bo-wen Li Shuo-yiin Chang Tara N. Sainath ... A. Narayanan Wei Han Anmol Gulati Yonghui Wu Ruoming Pang 20 90 0 21 Oct 2020
Emformer: Efficient Memory Transformer Based Acoustic Model For Low Latency Streaming Speech Recognition Yangyang Shi Yongqiang Wang Chunyang Wu Ching-Feng Yeh Julian Chan Frank Zhang Duc Le M. Seltzer 56 168 0 21 Oct 2020
Pushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition Yu Zhang James Qin Daniel S. Park Wei Han Chung-Cheng Chiu Ruoming Pang Quoc V. Le Yonghui Wu VLM SSL 146 308 0 20 Oct 2020
Reduce and Reconstruct: ASR for Low-Resource Phonetic Languages Anuj Diwan P. Jyothi 11 5 0 19 Oct 2020
Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime with Search Gyuwan Kim Kyunghyun Cho 37 94 0 14 Oct 2020
Dual-mode ASR: Unify and Improve Streaming ASR with Full-context Modeling Jiahui Yu Wei Han Anmol Gulati Chung-Cheng Chiu Bo-wen Li Tara N. Sainath Yonghui Wu Ruoming Pang 30 18 0 12 Oct 2020
fairseq S2T: Fast Speech-to-Text Modeling with fairseq Changhan Wang Yun Tang Xutai Ma Anne Wu Sravya Popuri Dmytro Okhonko J. Pino VLM LRM 30 264 0 11 Oct 2020
Swiss Parliaments Corpus, an Automatically Aligned Swiss German Speech to Standard German Text Corpus Michel Plüss Lukas Neukom Christian Scheller Manfred Vogel AILaw 18 25 0 06 Oct 2020
Rethinking Attention with Performers K. Choromanski Valerii Likhosherstov David Dohan Xingyou Song Andreea Gane ... Afroz Mohiuddin Lukasz Kaiser David Belanger Lucy J. Colwell Adrian Weller 37 1,521 0 30 Sep 2020
Detecting Sound Events Using Convolutional Macaron Net With Pseudo Strong Labels T. K. Chan C. Chin 13 2 0 21 Sep 2020
Fine-grained Early Frequency Attention for Deep Speaker Representation Learning Amirhossein Hajavi Ali Etemad 18 2 0 03 Sep 2020
Continuous Speech Separation with Conformer Sanyuan Chen Yu-Huan Wu Zhuo Chen Jian Wu Jinyu Li Takuya Yoshioka Chengyi Wang Shujie Liu M. Zhou 15 126 0 13 Aug 2020
wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations Alexei Baevski Henry Zhou Abdel-rahman Mohamed Michael Auli SSL 8 5,558 0 20 Jun 2020
Masked Language Modeling for Proteins via Linearly Scalable Long-Context Transformers K. Choromanski Valerii Likhosherstov David Dohan Xingyou Song Andreea Gane ... Peter Hawkins Jared Davis David Belanger Lucy J. Colwell Adrian Weller 31 84 0 05 Jun 2020
On the Comparison of Popular End-to-End Models for Large Scale Speech Recognition Jinyu Li Yu-Huan Wu Yashesh Gaur Chengyi Wang Rui Zhao Shujie Liu 17 133 0 28 May 2020
Pay Attention to What You Read: Non-recurrent Handwritten Text-Line Recognition Lei Kang Pau Riba Marccal Rusinol Alicia Fornés M. Villegas 11 123 0 26 May 2020