Title
Joint Automatic Speech Recognition And Structure Learning For Better Speech Understanding J. Hu Zuchao Li Mengjia Shen Haojun Ai Sheng Li Jun Zhang 31 0 0 20 Jan 2025
Voice Attribute Editing with Text Prompt Zheng-Yan Sheng Yang Ai Li-Juan Liu Jia Pan Zhenhua Ling 26 6 0 13 Apr 2024
Efficiency-oriented approaches for self-supervised speech representation learning Luis Lugo Valentin Vielzeuf SSL 26 1 0 18 Dec 2023
Leveraging Multilingual Self-Supervised Pretrained Models for Sequence-to-Sequence End-to-End Spoken Language Understanding Pavel Denisov Ngoc Thang Vu 29 1 0 09 Oct 2023
Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation over More Languages and Beyond Jiatong Shi William Chen Dan Berrebbi Hsiu-Hsuan Wang Wei-Ping Huang ... Yuxun Tang Shang-Wen Li Abdelrahman Mohamed Hung-yi Lee Shinji Watanabe LRM ELM 34 15 0 09 Oct 2023
CWCL: Cross-Modal Transfer with Continuously Weighted Contrastive Loss R. S. Srinivasa Jaejin Cho Chouchang Yang Yashas Malur Saidutta Ching Hua Lee Yilin Shen Hongxia Jin VLM 36 8 0 26 Sep 2023
Improving Textless Spoken Language Understanding with Discrete Units as Intermediate Target Guanyong Wu Guan-Ting Lin Shang-Wen Li Hung-yi Lee 26 5 0 29 May 2023
A Comparative Study on E-Branchformer vs Conformer in Speech Recognition, Translation, and Understanding Tasks Yifan Peng Kwangyoun Kim Felix Wu Brian Yan Siddhant Arora William Chen Jiyang Tang Suwon Shon Prashant Sridhar Shinji Watanabe 21 17 0 18 May 2023
The Interpreter Understands Your Meaning: End-to-end Spoken Language Understanding Aided by Speech Translation Mutian He Philip N. Garner 41 4 0 16 May 2023
Fast Conformer with Linearly Scalable Attention for Efficient Speech Recognition Dima Rekesh Nithin Rao Koluguri Samuel Kriman Somshubra Majumdar Vahid Noroozi ... Oleksii Hrinchuk Krishna Puvvada Ankur Kumar Jagadeesh Balam Boris Ginsburg 40 81 0 08 May 2023
Efficient Sequence Transduction by Jointly Predicting Tokens and Durations Hainan Xu Fei Jia Somshubra Majumdar Hengguan Huang Shinji Watanabe Boris Ginsburg 27 17 0 13 Apr 2023
Multitask Learning for Low Resource Spoken Language Understanding Quentin Meeus Marie-Francine Moens Hugo Van hamme 14 4 0 24 Nov 2022
Streaming Joint Speech Recognition and Disfluency Detection Hayato Futami E. Tsunoo Kentarou Shibata Yosuke Kashiwagi Takao Okuda Siddhant Arora Shinji Watanabe 34 6 0 16 Nov 2022
Bridging Speech and Textual Pre-trained Models with Unsupervised ASR Jiatong Shi Chan-Jan Hsu Ho-Lam Chung Dongji Gao Leibny Paola García-Perera Shinji Watanabe Ann Lee Hung-yi Lee 32 12 0 06 Nov 2022
End-to-end Spoken Language Understanding with Tree-constrained Pointer Generator Guangzhi Sun C. Zhang P. Woodland 22 8 0 29 Oct 2022
I2CR: Improving Noise Robustness on Keyword Spotting Using Inter-Intra Contrastive Regularization Dianwen Ng J. Yip Tanmay Surana Zhao Yang Chong Zhang Yukun Ma Chongjia Ni Chng Eng Siong B. Ma 35 6 0 14 Sep 2022
Two-Pass Low Latency End-to-End Spoken Language Understanding Siddhant Arora Siddharth Dalmia Xuankai Chang Brian Yan A. Black Shinji Watanabe VLM 24 19 0 14 Jul 2022
Branchformer: Parallel MLP-Attention Architectures to Capture Local and Global Context for Speech Recognition and Understanding Yifan Peng Siddharth Dalmia Ian Lane Shinji Watanabe 21 143 0 06 Jul 2022
SAMU-XLSR: Semantically-Aligned Multimodal Utterance-level Cross-Lingual Speech Representation Sameer Khurana Antoine Laurent James R. Glass 25 36 0 17 May 2022
Earnings-21: A Practical Benchmark for ASR in the Wild Miguel Rio Natalie Delworth Ryan Westerman Michelle Huang Nishchal Bhandari Joseph Palakapilly Quinten McNamara Joshua Dong Piotr Żelasko Miguel Jetté 58 47 0 22 Apr 2021