Speech Model Pre-training for End-to-End Spoken Language Understanding

7 April 2019

Mirco Ravanelli

Papers citing "Speech Model Pre-training for End-to-End Spoken Language Understanding"

50 / 84 papers shown

Title
AdaST: Dynamically Adapting Encoder States in the Decoder for End-to-End Speech-to-Text Translation Wuwei Huang Dexin Wang Deyi Xiong 72 4 0 18 Mar 2025
Data-efficient Performance Modeling via Pre-training Chunting Liu Riyadh Baghdadi 55 0 0 24 Jan 2025
Self-Supervised Speech Representations are More Phonetic than Semantic Kwanghee Choi Ankita Pasad Tomohiko Nakamura Satoru Fukayama Karen Livescu Shinji Watanabe 44 14 0 12 Jun 2024
Emotion-Aware Speech Self-Supervised Representation Learning with Intensity Knowledge Rui Liu Zening Ma SSL 42 1 0 10 Jun 2024
Investigating the Áutoencoder Behavior' in Speech Self-Supervised Models: a focus on HuBERT's Pretraining Valentin Vielzeuf SSL 49 0 0 14 May 2024
A Large-Scale Evaluation of Speech Foundation Models Shu-Wen Yang Heng-Jui Chang Zili Huang Andy T. Liu Cheng-I Jeff Lai ... Kushal Lakhotia Shang-Wen Li Abdelrahman Mohamed Shinji Watanabe Hung-yi Lee 43 20 0 15 Apr 2024
R-Spin: Efficient Speaker and Noise-invariant Representation Learning with Acoustic Pieces Heng-Jui Chang James R. Glass 38 3 0 15 Nov 2023
Improving Small Footprint Few-shot Keyword Spotting with Supervision on Auxiliary Data Seunghan Yang Byeonggeun Kim Kyuhong Shim Simyoung Chang 31 1 0 31 Aug 2023
Multimodal Audio-textual Architecture for Robust Spoken Language Understanding Anderson R. Avila Mehdi Rezagholizadeh Chao Xing 21 1 0 12 Jun 2023
Sequence-Level Knowledge Distillation for Class-Incremental End-to-End Spoken Language Understanding Umberto Cappellazzo Muqiao Yang Daniele Falavigna Alessio Brutti CLL KELM 27 6 0 23 May 2023
Zero-Shot End-to-End Spoken Language Understanding via Cross-Modal Selective Self-Training Jianfeng He Julian Salazar Kaisheng Yao Haoqi Li Jason (Jinglun) Cai VLM 17 7 0 22 May 2023
Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation Learning Nikhil Singh Chih-Wei Wu Iroro Orife Mahdi M. Kalayeh 30 2 0 12 Apr 2023
Evaluating Parameter-Efficient Transfer Learning Approaches on SURE Benchmark for Speech Understanding Yingting Li Ambuj Mehrish Shuaijiang Zhao Rishabh Bhardwaj Amir Zadeh Navonil Majumder Rada Mihalcea Soujanya Poria AAML 29 16 0 02 Mar 2023
Structured Pruning of Self-Supervised Pre-trained Models for Speech Recognition and Understanding Yifan Peng Kwangyoun Kim Felix Wu Prashant Sridhar Shinji Watanabe 34 34 0 27 Feb 2023
A Data-Efficient Visual-Audio Representation with Intuitive Fine-tuning for Voice-Controlled Robots Peixin Chang Shuijing Liu Tianchen Ji Neeloy Chakraborty Kaiwen Hong Katherine Driggs-Campbell 51 3 0 23 Jan 2023
Context-aware Fine-tuning of Self-supervised Speech Models Suwon Shon Felix Wu Kwangyoun Kim Prashant Sridhar Karen Livescu Shinji Watanabe 32 7 0 16 Dec 2022
Parameter Efficient Transfer Learning for Various Speech Processing Tasks Shinta Otake Rei Kawakami Nakamasa Inoue 24 16 0 06 Dec 2022
Model Extraction Attack against Self-supervised Speech Models Tsung-Yuan Hsu Chen-An Li Tung-Yu Wu Hung-yi Lee 32 1 0 29 Nov 2022
Multitask Learning for Low Resource Spoken Language Understanding Quentin Meeus Marie-Francine Moens Hugo Van hamme 24 4 0 24 Nov 2022
Introducing Semantics into Speech Encoders Derek Xu Shuyan Dong Changhan Wang Suyoun Kim Zhaojiang Lin ... Alexei Baevski Guan-Ting Lin Hung-yi Lee Yizhou Sun Wei Wang SSL 36 3 0 15 Nov 2022
A Study on the Integration of Pre-trained SSL, ASR, LM and SLU Models for Spoken Language Understanding Yifan Peng Siddhant Arora Yosuke Higuchi Yushi Ueda Sujay S. Kumar Karthik Ganesan Siddharth Dalmia Xuankai Chang Shinji Watanabe 29 20 0 10 Nov 2022
Active Learning of Non-semantic Speech Tasks with Pretrained Models Harlin Lee Aaqib Saeed Andrea L. Bertozzi VLM 18 2 0 31 Oct 2022
On Out-of-Distribution Detection for Audio with Deep Nearest Neighbors Z. Bukhsh Aaqib Saeed OODD 45 9 0 27 Oct 2022
Taxonomic Classification of IoT Smart Home Voice Control M. Hewitt H. Cunningham 26 1 0 24 Oct 2022
An empirical study of weakly supervised audio tagging embeddings for general audio representations Heinrich Dinkel Zhiyong Yan Yongqing Wang Junbo Zhang Yujun Wang 43 1 0 30 Sep 2022
MeWEHV: Mel and Wave Embeddings for Human Voice Tasks Andrés Vasco-Carofilis Laura Fernández-Robles Enrique Alegre Eduardo FIDALGO 42 2 0 28 Sep 2022
HAPI: A Large-scale Longitudinal Dataset of Commercial ML API Predictions Lingjiao Chen Zhihua Jin Sabri Eyuboglu Christopher Ré Matei A. Zaharia James Zou 56 9 0 18 Sep 2022
End-to-End Spoken Language Understanding: Performance analyses of a voice command task in a low resource setting Thierry Desot François Portet Michel Vacher 27 12 0 17 Jul 2022
Two-Pass Low Latency End-to-End Spoken Language Understanding Siddhant Arora Siddharth Dalmia Xuankai Chang Brian Yan A. Black Shinji Watanabe VLM 30 19 0 14 Jul 2022
Toward Low-Cost End-to-End Spoken Language Understanding Marco Dinarelli M. Naguib Franccois Portet 28 5 0 01 Jul 2022
Finstreder: Simple and fast Spoken Language Understanding with Finite State Transducers using modern Speech-to-Text models Daniel Bermuth Alexander Poeppel W. Reif 28 7 0 29 Jun 2022
STOP: A dataset for Spoken Task Oriented Semantic Parsing Paden Tomasello Akshat Shrivastava Daniel Lazar Po-Chun Hsu Duc Le ... Robin Algayres Tu Nguyen Emmanuel Dupoux Luke Zettlemoyer Abdel-rahman Mohamed 27 35 0 29 Jun 2022
On Building Spoken Language Understanding Systems for Low Resourced Languages Akshat Gupta 25 8 0 25 May 2022
Calibrate and Refine! A Novel and Agile Framework for ASR-error Robust Intent Detection Peilin Zhou Dading Chong Helin Wang Qingcheng Zeng 24 5 0 23 May 2022
Self-Supervised Speech Representation Learning: A Review Abdel-rahman Mohamed Hung-yi Lee Lasse Borgholt Jakob Drachmann Havtorn Joakim Edin ... Shang-Wen Li Karen Livescu Lars Maaløe Tara N. Sainath Shinji Watanabe SSL AI4TS 137 354 0 21 May 2022
Blockwise Streaming Transformer for Spoken Language Understanding and Simultaneous Speech Translation Keqi Deng Shinji Watanabe Jiatong Shi Siddhant Arora 33 15 0 19 Apr 2022
Tokenwise Contrastive Pretraining for Finer Speech-to-BERT Alignment in End-to-End Speech-to-Intent Systems Vishal Sunder Eric Fosler-Lussier Samuel Thomas H. Kuo Brian Kingsbury 23 7 0 11 Apr 2022
Three-Module Modeling For End-to-End Spoken Language Understanding Using Pre-trained DNN-HMM-Based Acoustic-Phonetic Model N. J. Wang Lu Wang Yandan Sun Haimei Kang Dejun Zhang AuLLM 16 3 0 07 Apr 2022
End-to-end model for named entity recognition from speech without paired training data Salima Mdhaffar J. Duret Titouan Parcollet Yannick Esteve 16 13 0 02 Apr 2022
SpeechPrompt: An Exploration of Prompt Tuning on Generative Spoken Language Model for Speech Processing Tasks Kai-Wei Chang Wei-Cheng Tseng Shang-Wen Li Hung-yi Lee 30 22 0 31 Mar 2022
Improving Distortion Robustness of Self-supervised Speech Processing Tasks with Domain Adaptation Kuan Po Huang Yuanbin Fu Yu Zhang Hung-yi Lee 21 28 0 30 Mar 2022
WAVPROMPT: Towards Few-Shot Spoken Language Understanding with Frozen Language Models Heting Gao Junrui Ni Kaizhi Qian Yang Zhang Shiyu Chang M. Hasegawa-Johnson VLM 22 31 0 29 Mar 2022
A Speech Representation Anonymization Framework via Selective Noise Perturbation Minh Tran M. Soleymani 35 4 0 26 Mar 2022
Building Robust Spoken Language Understanding by Cross Attention between Phoneme Sequence and ASR Hypothesis Zexun Wang Yuquan Le Yi Zhu Yuming Zhao M.-W. Feng Meng Chen Xiaodong He 25 5 0 22 Mar 2022
On the Use of External Data for Spoken Named Entity Recognition Ankita Pasad Felix Wu Suwon Shon Karen Livescu Kyu Jeong Han 40 16 0 14 Dec 2021
Towards Learning Universal Audio Representations Luyu Wang Pauline Luc Yan Wu Adrià Recasens Lucas Smaira ... Andrew Jaegle Jean-Baptiste Alayrac Sander Dieleman João Carreira Aaron van den Oord SSL 32 68 0 23 Nov 2021
Speech Representation Learning Through Self-supervised Pretraining And Multi-task Finetuning Yi-Chen Chen Shu-Wen Yang Cheng-Kuang Lee Simon See Hung-yi Lee SSL 19 12 0 18 Oct 2021
Don't speak too fast: The impact of data bias on self-supervised speech models Yen Meng Yi-Hui Chou Andy T. Liu Hung-yi Lee 34 26 0 15 Oct 2021
Decoupled Contrastive Learning Chun-Hsiao Yeh Cheng-Yao Hong Yen-Chi Hsu Tyng-Luh Liu Yubei Chen Yann LeCun 183 183 0 13 Oct 2021
Exploring Teacher-Student Learning Approach for Multi-lingual Speech-to-Intent Classification Bidisha Sharma Maulik C. Madhavi Xuehao Zhou Haizhou Li 23 2 0 28 Sep 2021