Multi-task self-supervised learning for Robust Speech Recognition

25 January 2020

Mirco Ravanelli

Papers citing "Multi-task self-supervised learning for Robust Speech Recognition"

50 / 61 papers shown

Title
LLM supervised Pre-training for Multimodal Emotion Recognition in Conversations Soumya Dutta Sriram Ganapathy 33 2 0 20 Jan 2025
LLAniMAtion: LLAMA Driven Gesture Animation John T. Windle Iain Matthews Sarah Taylor 41 0 0 13 May 2024
A Large-Scale Evaluation of Speech Foundation Models Shu-Wen Yang Heng-Jui Chang Zili Huang Andy T. Liu Cheng-I Jeff Lai ... Kushal Lakhotia Shang-Wen Li Abdelrahman Mohamed Shinji Watanabe Hung-yi Lee 38 19 0 15 Apr 2024
FAT-HuBERT: Front-end Adaptive Training of Hidden-unit BERT for Distortion-Invariant Robust Speech Recognition Dongning Yang Wei Wang Yanmin Qian 13 3 0 29 Nov 2023
Continual Learning of Hand Gestures for Human-Robot Interaction Xavier Cucurull A. Garrell 34 2 0 13 Apr 2023
Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation Learning Nikhil Singh Chih-Wei Wu Iroro Orife Mahdi M. Kalayeh 23 2 0 12 Apr 2023
Evaluating gesture generation in a large-scale open challenge: The GENEA Challenge 2022 Taras Kucherenko Pieter Wolfert Youngwoo Yoon Carla Viegas Teodor Nikolov Mihail Tsakov G. Henter 32 24 0 15 Mar 2023
Can we avoid Double Descent in Deep Neural Networks? Victor Quétu Enzo Tartaglione AI4CE 20 3 0 26 Feb 2023
Improved acoustic-to-articulatory inversion using representations from pretrained self-supervised learning models Sathvik Udupa Siddarth C P. Ghosh 19 7 0 30 Oct 2022
Robust Data2vec: Noise-robust Speech Representation Learning for ASR by Combining Regression and Improved Contrastive Learning Qiu-shi Zhu Long Zhou Jie M. Zhang Shujie Liu Yu-Chen Hu Lirong Dai VLM SSL 52 37 0 27 Oct 2022
SUPERB @ SLT 2022: Challenge on Generalization and Efficiency of Self-Supervised Speech Representation Learning Tzu-hsun Feng Annie Dong Ching-Feng Yeh Shu-Wen Yang Tzu-Quan Lin ... Xuankai Chang Shinji Watanabe Abdel-rahman Mohamed Shang-Wen Li Hung-yi Lee ELM SSL 26 33 0 16 Oct 2022
Learning Invariant Representation and Risk Minimized for Unsupervised Accent Domain Adaptation Chendong Zhao Jianzong Wang Xiaoyang Qu Haoqian Wang Jing Xiao SSL 30 1 0 15 Oct 2022
Multitask Learning from Augmented Auxiliary Data for Improving Speech Emotion Recognition S. Latif R. Rana Sara Khalifa Raja Jurdak Björn W. Schuller 20 21 0 12 Jul 2022
Towards Proper Contrastive Self-supervised Learning Strategies For Music Audio Representation Jeong-Eun Choi Seongwon Jang Hyunsouk Cho Sehee Chung SSL 16 6 0 10 Jul 2022
Investigation of Ensemble features of Self-Supervised Pretrained Models for Automatic Speech Recognition Anjana Arunkumar Vrunda N. Sukhadia S. Umesh 25 10 0 11 Jun 2022
Joint Encoder-Decoder Self-Supervised Pre-training for ASR Arunkumar A S. Umesh SSL 32 8 0 09 Jun 2022
Speaker Identification using Speech Recognition Syeda Rabia Arshad Syed Mujtaba Haider Abdul Basit Mughal 6 1 0 29 May 2022
Joint Training of Speech Enhancement and Self-supervised Model for Noise-robust ASR Qiu-shi Zhu Jie M. Zhang Zitian Zhang Lirong Dai 35 15 0 26 May 2022
Self-Supervised Speech Representation Learning: A Review Abdel-rahman Mohamed Hung-yi Lee Lasse Borgholt Jakob Drachmann Havtorn Joakim Edin ... Shang-Wen Li Karen Livescu Lars Maaløe Tara N. Sainath Shinji Watanabe SSL AI4TS 128 349 0 21 May 2022
Learning Representations for New Sound Classes With Continual Self-Supervised Learning Zhepei Wang Cem Subakan Xilin Jiang Junkai Wu Efthymios Tzinis Mirco Ravanelli Paris Smaragdis CLL SSL 59 19 0 15 May 2022
ContentVec: An Improved Self-Supervised Speech Representation by Disentangling Speakers Kaizhi Qian Yang Zhang Heting Gao Junrui Ni Cheng-I Jeff Lai David D. Cox M. Hasegawa-Johnson Shiyu Chang DRL 19 110 0 20 Apr 2022
BYOL for Audio: Exploring Pre-trained General-purpose Audio Representations Daisuke Niizumi Daiki Takeuchi Yasunori Ohishi N. Harada K. Kashino SSL 34 53 0 15 Apr 2022
Auditory-Based Data Augmentation for End-to-End Automatic Speech Recognition Zehai Tu Jack Deadman Ning Ma Jon Barker 27 4 0 08 Apr 2022
Federated Self-supervised Speech Representations: Are We There Yet? Yan Gao Javier Fernandez-Marques Titouan Parcollet Abhinav Mehrotra Nicholas D. Lane 22 13 0 06 Apr 2022
Improving Distortion Robustness of Self-supervised Speech Processing Tasks with Domain Adaptation Kuan Po Huang Yuanbin Fu Yu Zhang Hung-yi Lee 14 28 0 30 Mar 2022
Audio Self-supervised Learning: A Survey Shuo Liu Adria Mallol-Ragolta Emilia Parada-Cabeleiro Kun Qian Xingshuo Jing Alexander Kathan Bin Hu Bjoern W. Schuller SSL 35 106 0 02 Mar 2022
Sound and Visual Representation Learning with Multiple Pretraining Tasks A. Vasudevan Dengxin Dai Luc Van Gool SSL 31 6 0 04 Jan 2022
Adaptive Memory Networks with Self-supervised Learning for Unsupervised Anomaly Detection Yu-xin Zhang Jindong Wang Yiqiang Chen Hanchao Yu Tao Qin AI4TS 25 54 0 03 Jan 2022
Self-Supervised Learning for speech recognition with Intermediate layer supervision Chengyi Wang Yu-Huan Wu Sanyuan Chen Shujie Liu Jinyu Li Yao Qian Zhenglu Yang SSL 16 28 0 16 Dec 2021
Perceptual Loss with Recognition Model for Single-Channel Enhancement and Robust ASR Peter William VanHarn Plantinga Deblin Bagchi Eric Fosler-Lussier 44 10 0 11 Dec 2021
XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale Arun Babu Changhan Wang Andros Tjandra Kushal Lakhotia Qiantong Xu ... Yatharth Saraf J. Pino Alexei Baevski Alexis Conneau Michael Auli SSL 19 656 0 17 Nov 2021
Improving Noise Robustness of Contrastive Speech Representation Learning with Speech Reconstruction Heming Wang Yao Qian Xiaofei Wang Yiming Wang Chengyi Wang Shujie Liu Takuya Yoshioka Jinyu Li DeLiang Wang 13 29 0 28 Oct 2021
Neural Analysis and Synthesis: Reconstructing Speech from Self-Supervised Representations Hyeong-Seok Choi Juheon Lee W. Kim Jie Hwan Lee Hoon Heo Kyogu Lee 20 150 0 27 Oct 2021
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing Sanyuan Chen Chengyi Wang Zhengyang Chen Yu-Huan Wu Shujie Liu ... Yao Qian Jian Wu Micheal Zeng Xiangzhan Yu Furu Wei SSL 75 1,698 0 26 Oct 2021
Wav2CLIP: Learning Robust Audio Representations From CLIP Ho-Hsiang Wu Prem Seetharaman Kundan Kumar J. P. Bello CLIP VLM 31 267 0 21 Oct 2021
SSAST: Self-Supervised Audio Spectrogram Transformer Yuan Gong Cheng-I Jeff Lai Yu-An Chung James R. Glass ViT 30 268 0 19 Oct 2021
Speech Representation Learning Through Self-supervised Pretraining And Multi-task Finetuning Yi-Chen Chen Shu-Wen Yang Cheng-Kuang Lee Simon See Hung-yi Lee SSL 11 12 0 18 Oct 2021
Word Order Does Not Matter For Speech Recognition Vineel Pratap Qiantong Xu Tatiana Likhomanenko Gabriel Synnaeve R. Collobert 27 4 0 12 Oct 2021
UniSpeech-SAT: Universal Speech Representation Learning with Speaker Aware Pre-Training Sanyuan Chen Yu Wu Chengyi Wang Zhengyang Chen Zhuo Chen ... Jian Wu Yao Qian Furu Wei Jinyu Li Xiangzhan Yu SSL 22 84 0 12 Oct 2021
DistilHuBERT: Speech Representation Learning by Layer-wise Distillation of Hidden-unit BERT Heng-Jui Chang Shu-Wen Yang Hung-yi Lee SSL 22 163 0 05 Oct 2021
Comparison of Self-Supervised Speech Pre-Training Methods on Flemish Dutch Jakob Poncelet Hugo Van hamme SSL 23 1 0 29 Sep 2021
Fine-Grained Classroom Activity Detection from Audio with Neural Networks Eric Slyman Chris Daw Morgan Skrabut A. Usenko Brian Hutchinson HAI 12 5 0 29 Jul 2021
Self Training with Ensemble of Teacher Models Soumyadeep Ghosh Sanjay Kumar Janu Verma Awanish Kumar 25 3 0 17 Jul 2021
Representation based meta-learning for few-shot spoken intent recognition Ashish R. Mittal Samarth Bharadwaj Shreya Khare Saneem A. Chemmengath Karthik Sankaranarayanan Brian Kingsbury 16 12 0 29 Jun 2021
LiRA: Learning Visual Speech Representations from Audio through Self-supervision Pingchuan Ma Rodrigo Mira Stavros Petridis Björn W. Schuller M. Pantic SSL 16 53 0 16 Jun 2021
Self-Supervised Learning of Audio Representations from Permutations with Differentiable Ranking Andrew N. Carr Quentin Berthet Mathieu Blondel O. Teboul Neil Zeghidour SSL 8 24 0 17 Mar 2021
Contrastive Learning of Musical Representations Janne Spijkervet J. Burgoyne 33 111 0 17 Mar 2021
BYOL for Audio: Self-Supervised Learning for General-Purpose Audio Representation Daisuke Niizumi Daiki Takeuchi Yasunori Ohishi N. Harada K. Kashino SSL 24 175 0 11 Mar 2021
Wav2vec-C: A Self-supervised Model for Speech Representation Learning Samik Sadhu Di He Che-Wei Huang Sri Harish Reddy Mallidi Minhua Wu Ariya Rastrow A. Stolcke J. Droppo Roland Maas SSL 15 48 0 09 Mar 2021
Contrastive Learning Inverts the Data Generating Process Roland S. Zimmermann Yash Sharma Steffen Schneider Matthias Bethge Wieland Brendel SSL 238 207 0 17 Feb 2021