Intermediate Loss Regularization for CTC-based Speech Recognition

5 February 2021

Papers citing "Intermediate Loss Regularization for CTC-based Speech Recognition"

20 / 20 papers shown

Title
Tailored Design of Audio-Visual Speech Recognition Models using Branchformers David Gimeno-Gómez Carlos David Martínez Hinarejos 86 2 0 09 Jul 2024
Low-resource speech recognition and dialect identification of Irish in a multi-task framework Liam Lonergan Mengjie Qian Neasa Ní Chiaráin Christer Gobl A. N. Chasaide 38 2 0 02 May 2024
Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer Maxime Burchi Krishna C. Puvvada Jagadeesh Balam Boris Ginsburg Radu Timofte 40 8 0 14 Mar 2024
OWSM-CTC: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification Yifan Peng Yui Sudo Muhammad Shakeel Shinji Watanabe VLM 35 17 0 20 Feb 2024
Retrieve and Copy: Scaling ASR Personalization to Large Catalogs Sai Muralidhar Jayanthi Devang Kulshreshtha Saket Dingliwal S. Ronanki S. Bodapati 30 7 0 14 Nov 2023
Semi-Autoregressive Streaming ASR With Label Context Siddhant Arora G. Saon Shinji Watanabe Brian Kingsbury AI4TS 23 5 0 19 Sep 2023
A New Benchmark of Aphasia Speech Recognition and Detection Based on E-Branchformer and Multi-task Learning Jiyang Tang William Chen Xuankai Chang Shinji Watanabe B. MacWhinney 16 10 0 19 May 2023
A Comparative Study on E-Branchformer vs Conformer in Speech Recognition, Translation, and Understanding Tasks Yifan Peng Kwangyoun Kim Felix Wu Brian Yan Siddhant Arora William Chen Jiyang Tang Suwon Shon Prashant Sridhar Shinji Watanabe 19 17 0 18 May 2023
ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit Brian Yan Jiatong Shi Yun Tang H. Inaguma Yifan Peng ... Zhaoheng Ni Moto Hira Soumi Maiti J. Pino Shinji Watanabe 19 20 0 10 Apr 2023
I3D: Transformer architectures with input-dependent dynamic depth for speech recognition Yifan Peng Jaesong Lee Shinji Watanabe 27 19 0 14 Mar 2023
Neural Diarization with Non-autoregressive Intermediate Attractors Yusuke Fujita Tatsuya Komatsu Robin Scheibler Yusuke Kida Tetsuji Ogawa 33 11 0 13 Mar 2023
The ISCSLP 2022 Intelligent Cockpit Speech Recognition Challenge (ICSRC): Dataset, Tracks, Baseline and Results Ao Zhang F. Yu Kaixun Huang Linfu Xie Longbiao Wang E. Chng Hui Bu Binbin Zhang Wei-Neng Chen Xin Xu 19 4 0 03 Nov 2022
Avoid Overthinking in Self-Supervised Models for Speech Recognition Dan Berrebbi Brian Yan Shinji Watanabe LRM 13 4 0 01 Nov 2022
A context-aware knowledge transferring strategy for CTC-based ASR Keda Lu Kuan-Yu Chen 15 14 0 12 Oct 2022
Uconv-Conformer: High Reduction of Input Sequence Length for End-to-End Speech Recognition A. Andrusenko R. Nasretdinov A. Romanenko 18 18 0 16 Aug 2022
Non-Autoregressive ASR with Self-Conditioned Folded Encoders Tatsuya Komatsu 20 7 0 17 Feb 2022
PM-MMUT: Boosted Phone-Mask Data Augmentation using Multi-Modeling Unit Training for Phonetic-Reduction-Robust E2E Speech Recognition Guodong Ma Pengfei Hu Nurmemet Yolwas Shen Huang Hao-Ming Huang 19 4 0 13 Dec 2021
Hierarchical Conditional End-to-End ASR with CTC and Multi-Granular Subword Units Yosuke Higuchi Keita Karube Tetsuji Ogawa Tetsunori Kobayashi 16 22 0 08 Oct 2021
Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with Non-Autoregressive Hidden Intermediates H. Inaguma Siddharth Dalmia Brian Yan Shinji Watanabe 59 11 0 27 Sep 2021
Scaling Up Online Speech Recognition Using ConvNets Vineel Pratap Qiantong Xu Jacob Kahn Gilad Avidov Tatiana Likhomanenko Awni Y. Hannun Vitaliy Liptchinsky Gabriel Synnaeve R. Collobert 154 38 0 27 Jan 2020