Title
ILASR: Privacy-Preserving Incremental Learning for Automatic Speech Recognition at Production Scale Gopinath Chennupati Milind Rao Gurpreet Chadha Aaron Eakin A. Raju ... Andrew Oberlin Buddha Nandanoor Prahalad Venkataramanan Zheng Wu Pankaj Sitpure CLL 95 8 0 19 Jul 2022
Asset Allocation: From Markowitz to Deep Reinforcement Learning Ricard Durall 44 6 0 14 Jul 2022
Revisiting Label Smoothing and Knowledge Distillation Compatibility: What was Missing? Keshigeyan Chandrasegaran Ngoc-Trung Tran Yunqing Zhao Ngai-Man Cheung 150 44 0 29 Jun 2022
Sequence-level Speaker Change Detection with Difference-based Continuous Integrate-and-fire Zhiyun Fan Linhao Dong Meng Cai Zejun Ma Bo Xu 66 4 0 27 Jun 2022
On Comparison of Encoders for Attention based End to End Speech Recognition in Standalone and Rescoring Mode Raviraj Joshi Subodh Kumar 75 2 0 26 Jun 2022
Detecting the Severity of Major Depressive Disorder from Speech: A Novel HARD-Training Methodology Edward L. Campbell J. Dineley Pauline Conde F. Matcham F. Lamers S. Siddi Laura Docío-Fernández C. García-Mateo N. Cummins the RADAR-CNS Consortium 69 4 0 02 Jun 2022
Minimising Biasing Word Errors for Contextual ASR with the Tree-Constrained Pointer Generator Guangzhi Sun Chuxu Zhang P. Woodland 91 14 0 18 May 2022
A Unified Cascaded Encoder ASR Model for Dynamic Model Sizes Shaojin Ding Weiran Wang Ding Zhao Tara N. Sainath Yanzhang He ... Qiao Liang Dongseong Hwang Ian McGraw Rohit Prabhavalkar Trevor Strohman 48 17 0 13 Apr 2022
Combining Spectral and Self-Supervised Features for Low Resource Speech Recognition and Translation Dan Berrebbi Jiatong Shi Brian Yan Osbel López-Francisco Jonathan D. Amith Shinji Watanabe 68 27 0 05 Apr 2022
A Complementary Joint Training Approach Using Unpaired Speech and Text for Low-Resource Automatic Speech Recognition Ye Du Jie Zhang Qiu-shi Zhu Lirong Dai Ming Wu Xin Fang Zhouwang Yang 56 2 0 05 Apr 2022
CTA-RNN: Channel and Temporal-wise Attention RNN Leveraging Pre-trained ASR Embeddings for Speech Emotion Recognition Chengxin Chen Pengyuan Zhang AI4TS 55 10 0 31 Mar 2022
Analyzing the factors affecting usefulness of Self-Supervised Pre-trained Representations for Speech Recognition Ashish Seth L. D. Prasad Sreyan Ghosh S. Umesh 40 3 0 31 Mar 2022
Memory-Efficient Training of RNN-Transducer with Sampled Softmax Jaesong Lee Lukas Lee Shinji Watanabe 94 8 0 31 Mar 2022
4-bit Conformer with Native Quantization Aware Training for Speech Recognition Shaojin Ding Phoenix Meadowlark Yanzhang He Lukasz Lew Shivani Agrawal Oleg Rybakov MQ 92 36 0 29 Mar 2022
An Overview & Analysis of Sequence-to-Sequence Emotional Voice Conversion Zijiang Yang Xin Jing Andreas Triantafyllopoulos Meishu Song Ilhan Aslan Björn W. Schuller 60 14 0 29 Mar 2022
Noise-robust Speech Recognition with 10 Minutes Unparalleled In-domain Data Chen Chen Nana Hou Yuchen Hu Shashank Shirol Chng Eng Siong NoLa 103 43 0 29 Mar 2022
Transformer-based Streaming ASR with Cumulative Attention Mohan Li Shucong Zhang Catalin Zorila R. Doddipatla 111 9 0 11 Mar 2022
Language Adaptive Cross-lingual Speech Representation Learning with Sparse Sharing Sub-networks Yizhou Lu Mingkun Huang Xinghua Qu Pengfei Wei Zejun Ma 84 19 0 09 Mar 2022
Language technology practitioners as language managers: arbitrating data bias and predictive bias in ASR Nina Markl S. McNulty 56 9 0 25 Feb 2022
VADOI:Voice-Activity-Detection Overlapping Inference For End-to-end Long-form Speech Recognition Jinhan Wang Xiaosu Tong Jinxi Guo Di He Roland Maas 71 5 0 22 Feb 2022
End-to-end contextual asr based on posterior distribution adaptation for hybrid ctc/attention system Zheng Zhang Pan Zhou 59 6 0 18 Feb 2022
Conversational Speech Recognition By Learning Conversation-level Characteristics Kun Wei Yike Zhang Sining Sun Lei Xie Long Ma 82 9 0 16 Feb 2022
I'm Hearing (Different) Voices: Anonymous Voices to Protect User Privacy H.C.M. Turner Giulio Lovisotto Simon Eberz Ivan Martinovic 25 1 0 13 Feb 2022
Conversational Agents: Theory and Applications M. Wahde M. Virgolin LLMAG 68 26 0 07 Feb 2022
On the Effectiveness of Pinyin-Character Dual-Decoding for End-to-End Mandarin Chinese ASR Zhao Yang Dianwen Ng Xiao Fu Liping Han Wei Xi Ruimeng Wang Rui Jiang Jizhong Zhao 81 2 0 26 Jan 2022
Internal Language Model Estimation Through Explicit Context Vector Learning for Attention-based Encoder-decoder ASR Yufei Liu Rao Ma Haihua Xu Yi He Zejun Ma Weibin Zhang 70 12 0 26 Jan 2022
Graph Neural Networks: a bibliometrics overview Abdalsamad Keramatfar Mohadeseh Rafiee Hossein Amirkhani GNN AI4CE 74 25 0 03 Jan 2022
Multi-Variant Consistency based Self-supervised Learning for Robust Automatic Speech Recognition Changfeng Gao Gaofeng Cheng Pengyuan Zhang 77 4 0 23 Dec 2021
Neural Networks for Infectious Diseases Detection: Prospects and Challenges Muhammad Azeem Shumaila Javaid Hamza Fahim Nasir Saeed 55 6 0 07 Dec 2021
Attention based end to end Speech Recognition for Voice Search in Hindi and English Raviraj Joshi Venkateshan Kannan 51 7 0 15 Nov 2021
Context-Aware Transformer Transducer for Speech Recognition Feng-Ju Chang Jing Liu Martin H. Radfar Athanasios Mouchtaris M. Omologo Ariya Rastrow Siegfried Kunzmann 66 85 0 05 Nov 2021
Sequence-to-Sequence Modeling for Action Identification at High Temporal Resolution Aakash Kaku Kangning Liu A. Parnandi H. Rajamohan Kannan Venkataramanan Anita Venkatesan Audre Wirtanen Natasha Pandit Heidi M. Schambra C. Fernandez‐Granda 35 5 0 03 Nov 2021
Recent Advances in End-to-End Automatic Speech Recognition Jinyu Li VLM 170 378 0 02 Nov 2021
Bridge the Gap Between CV and NLP! A Gradient-based Textual Adversarial Attack Framework Lifan Yuan Yichi Zhang Yangyi Chen Wei Wei AAML 113 34 0 28 Oct 2021
Understanding How Encoder-Decoder Architectures Attend Kyle Aitken V. Ramasesh Yuan Cao Niru Maheswaranathan 71 17 0 28 Oct 2021
Optimizing Alignment of Speech and Language Latent Spaces for End-to-End Speech Recognition and Understanding Wei Wang Shuo Ren Yao Qian Shujie Liu Yu Shi Y. Qian Michael Zeng 87 18 0 23 Oct 2021
An Investigation of Enhancing CTC Model for Triggered Attention-based Streaming ASR Huaibo Zhao Yosuke Higuchi Tetsuji Ogawa Tetsunori Kobayashi 29 4 0 20 Oct 2021
SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition Jing Pan Tao Lei Kwangyoun Kim Kyu Jeong Han Shinji Watanabe VLM 57 10 0 11 Oct 2021
A Comparative Study on Non-Autoregressive Modelings for Speech-to-Text Generation Yosuke Higuchi Nanxin Chen Yuya Fujita Hirofumi Inaguma Tatsuya Komatsu Jaesong Lee Jumon Nozaki Tianzi Wang Shinji Watanabe 49 43 0 11 Oct 2021
Advancing Momentum Pseudo-Labeling with Conformer and Initialization Strategy Yosuke Higuchi Niko Moritz Jonathan Le Roux Takaaki Hori 83 12 0 11 Oct 2021
DITTO: Data-efficient and Fair Targeted Subset Selection for ASR Accent Adaptation Suraj Kothawade Anmol Reddy Mekala D. ChandraSekhara Mayank Kothyari Rishabh K. Iyer Ganesh Ramakrishnan Preethi Jyothi 78 6 0 10 Oct 2021
Have best of both worlds: two-pass hybrid and E2E cascading framework for speech recognition Guoli Ye V. Mazalov Jinyu Li Jiawei Liu 70 9 0 10 Oct 2021
Hierarchical Conditional End-to-End ASR with CTC and Multi-Granular Subword Units Yosuke Higuchi Keita Karube Tetsuji Ogawa Tetsunori Kobayashi 49 24 0 08 Oct 2021
Explaining the Attention Mechanism of End-to-End Speech Recognition Using Decision Trees Yuanchao Wang Wenjing Du Chenghao Cai Yanyan Xu 66 1 0 08 Oct 2021
ABCP: Automatic Block-wise and Channel-wise Network Pruning via Joint Search Jiaqi Li Haoran Li Yaran Chen Zixiang Ding Nannan Li Mingjun Ma Zicheng Duan Dong Zhao 65 9 0 08 Oct 2021
Back from the future: bidirectional CTC decoding using future information in speech recognition Namkyu Jung Geon-min Kim Han-Gyu Kim 70 3 0 07 Oct 2021
Internal Language Model Adaptation with Text-Only Data for End-to-End Speech Recognition Zhong Meng Yashesh Gaur Naoyuki Kanda Jinyu Li Xie Chen Yu Wu Yifan Gong AuLLM 86 32 0 06 Oct 2021
Integrating Categorical Features in End-to-End ASR Rongqing Huang 94 1 0 06 Oct 2021
GAN-based Reactive Motion Synthesis with Class-aware Discriminators for Human-human Interaction Qianhui Men Hubert P. H. Shum Edmond S. L. Ho Howard Leung 92 29 0 01 Oct 2021
Factorized Neural Transducer for Efficient Language Model Adaptation Xie Chen Zhong Meng S. Parthasarathy Jinyu Li 128 40 0 27 Sep 2021