Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks

6 April 2019

Mirco Ravanelli

Papers citing "Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks"

50 / 81 papers shown

Title
COCOLA: Coherence-Oriented Contrastive Learning of Musical Audio Representations Ruben Ciranni Emilian Postolache Giorgio Mariani Michele Mancusi Giorgio Fabbro Emanuele Rodolà Luca Cosmo 76 7 0 10 Jan 2025
Multi-Stage Multi-Modal Pre-Training for Automatic Speech Recognition Yash Jain David M. Chan Pranav Dheram Aparna Khare Olabanji Shonibare Venkatesh Ravichandran Shalini Ghosh 40 2 0 28 Mar 2024
Self-Supervised Learning for Audio-Based Emotion Recognition Peranut Nimitsurachat Peter Washington 30 3 0 23 Jul 2023
MiniSUPERB: Lightweight Benchmark for Self-supervised Speech Models Yu-Hsiang Wang Huan Chen Kai-Wei Chang Winston H. Hsu Hung-yi Lee 27 6 0 30 May 2023
Progressive Multi-Scale Self-Supervised Learning for Speech Recognition Genshun Wan Tan Liu Hang Chen Jia Pan Cong Liu Z. Ye SSL 18 0 0 07 Dec 2022
Biased Self-supervised learning for ASR Florian Kreyssig Yangyang Shi Jinxi Guo Leda Sari Abdel-rahman Mohamed P. Woodland SSL 30 2 0 04 Nov 2022
Understanding Acoustic Patterns of Human Teachers Demonstrating Manipulation Tasks to Robots Akanksha Saran K. Desai M. L. Chang Rudolf Lioutikov A. Thomaz S. Niekum 22 3 0 01 Nov 2022
SUPERB @ SLT 2022: Challenge on Generalization and Efficiency of Self-Supervised Speech Representation Learning Tzu-hsun Feng Annie Dong Ching-Feng Yeh Shu-Wen Yang Tzu-Quan Lin ... Xuankai Chang Shinji Watanabe Abdel-rahman Mohamed Shang-Wen Li Hung-yi Lee ELM SSL 36 33 0 16 Oct 2022
The Efficacy of Self-Supervised Speech Models for Audio Representations Tung-Yu Wu Chen-An Li Tzu-Han Lin Tsung-Yuan Hsu Hung-yi Lee 32 5 0 26 Sep 2022
Transfer Learning of wav2vec 2.0 for Automatic Lyric Transcription Longshen Ou Xiangming Gu Ye Wang 30 21 0 20 Jul 2022
Towards Proper Contrastive Self-supervised Learning Strategies For Music Audio Representation Jeong-Eun Choi Seongwon Jang Hyunsouk Cho Sehee Chung SSL 19 6 0 10 Jul 2022
Glow-WaveGAN 2: High-quality Zero-shot Text-to-speech Synthesis and Any-to-any Voice Conversion Yinjiao Lei Shan Yang Jian Cong Linfu Xie Dan Su DiffM 64 12 0 05 Jul 2022
Wav2Vec-Aug: Improved self-supervised training with limited data Anuroop Sriram Michael Auli Alexei Baevski SSL VLM 22 15 0 27 Jun 2022
Boosting Cross-Domain Speech Recognition with Self-Supervision Hanjing Zhu Gaofeng Cheng Jindong Wang Wenxin Hou Pengyuan Zhang Yonghong Yan 19 13 0 20 Jun 2022
Self-Supervised Speech Representation Learning: A Review Abdel-rahman Mohamed Hung-yi Lee Lasse Borgholt Jakob Drachmann Havtorn Joakim Edin ... Shang-Wen Li Karen Livescu Lars Maaløe Tara N. Sainath Shinji Watanabe SSL AI4TS 137 354 0 21 May 2022
SAMU-XLSR: Semantically-Aligned Multimodal Utterance-level Cross-Lingual Speech Representation Sameer Khurana Antoine Laurent James R. Glass 27 36 0 17 May 2022
Sound Localization by Self-Supervised Time Delay Estimation Ziyang Chen David Fouhey Andrew Owens SSL 27 19 0 26 Apr 2022
ContentVec: An Improved Self-Supervised Speech Representation by Disentangling Speakers Kaizhi Qian Yang Zhang Heting Gao Junrui Ni Cheng-I Jeff Lai David D. Cox M. Hasegawa-Johnson Shiyu Chang DRL 30 110 0 20 Apr 2022
On the pragmatism of using binary classifiers over data intensive neural network classifiers for detection of COVID-19 from voice Ankit Parag Shah Hira Dhamyal Yang Gao Daniel Arancibia Mario Arancibia Bhiksha Raj Rita Singh 33 5 0 11 Apr 2022
Federated Self-supervised Speech Representations: Are We There Yet? Yan Gao Javier Fernandez-Marques Titouan Parcollet Abhinav Mehrotra Nicholas D. Lane 35 13 0 06 Apr 2022
Federated Self-Supervised Learning for Acoustic Event Classification Meng Feng Chieh-Chi Kao Qingming Tang Ming Sun Viktor Rozgic Spyros Matsoukas Chao Wang 41 11 0 22 Mar 2022
Audio Self-supervised Learning: A Survey Shuo Liu Adria Mallol-Ragolta Emilia Parada-Cabeleiro Kun Qian Xingshuo Jing Alexander Kathan Bin Hu Bjoern W. Schuller SSL 42 106 0 02 Mar 2022
A Brief Overview of Unsupervised Neural Speech Representation Learning Lasse Borgholt Jakob Drachmann Havtorn Joakim Edin Lars Maaløe Christian Igel BDL AI4TS SSL 19 11 0 01 Mar 2022
Visual Speech Recognition for Multiple Languages in the Wild Pingchuan Ma Stavros Petridis Maja Pantic VLM 130 145 0 26 Feb 2022
Self-Supervised Representation Learning for Speech Using Visual Grounding and Masked Language Modeling Puyuan Peng David Harwath SSL 43 26 0 07 Feb 2022
Sound and Visual Representation Learning with Multiple Pretraining Tasks A. Vasudevan Dengxin Dai Luc Van Gool SSL 38 6 0 04 Jan 2022
Self-Supervised Learning for speech recognition with Intermediate layer supervision Chengyi Wang Yu-Huan Wu Sanyuan Chen Shujie Liu Jinyu Li Yao Qian Zhenglu Yang SSL 26 28 0 16 Dec 2021
Joint Unsupervised and Supervised Training for Multilingual ASR Junwen Bai Bo-wen Li Yu Zhang Ankur Bapna Nikhil Siddhartha K. Sim Tara N. Sainath 32 58 0 15 Nov 2021
Fusing ASR Outputs in Joint Training for Speech Emotion Recognition Yuanchao Li P. Bell Catherine Lai 23 55 0 29 Oct 2021
Neural Analysis and Synthesis: Reconstructing Speech from Self-Supervised Representations Hyeong-Seok Choi Juheon Lee W. Kim Jie Hwan Lee Hoon Heo Kyogu Lee 42 151 0 27 Oct 2021
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing Sanyuan Chen Chengyi Wang Zhengyang Chen Yu-Huan Wu Shujie Liu ... Yao Qian Jian Wu Micheal Zeng Xiangzhan Yu Furu Wei SSL 132 1,721 0 26 Oct 2021
SSAST: Self-Supervised Audio Spectrogram Transformer Yuan Gong Cheng-I Jeff Lai Yu-An Chung James R. Glass ViT 38 268 0 19 Oct 2021
Self-Supervised Representation Learning: Introduction, Advances and Challenges Linus Ericsson Henry Gouk Chen Change Loy Timothy M. Hospedales SSL OOD AI4TS 37 274 0 18 Oct 2021
Speech Representation Learning Through Self-supervised Pretraining And Multi-task Finetuning Yi-Chen Chen Shu-Wen Yang Cheng-Kuang Lee Simon See Hung-yi Lee SSL 19 12 0 18 Oct 2021
Universal Paralinguistic Speech Representations Using Self-Supervised Conformers Joel Shor A. Jansen Wei Han Daniel S. Park Yu Zhang SSL AI4TS 43 54 0 09 Oct 2021
Neural Model Reprogramming with Similarity Based Mapping for Low-Resource Spoken Command Recognition Hao Yen Pin-Jui Ku Chao-Han Huck Yang Hu Hu Sabato Marco Siniscalchi Pin-Yu Chen Yu Tsao 40 4 0 08 Oct 2021
DistilHuBERT: Speech Representation Learning by Layer-wise Distillation of Hidden-unit BERT Heng-Jui Chang Shu-Wen Yang Hung-yi Lee SSL 43 165 0 05 Oct 2021
Cross-domain Semi-Supervised Audio Event Classification Using Contrastive Regularization Donmoon Lee Kyogu Lee 25 3 0 29 Sep 2021
Comparison of Self-Supervised Speech Pre-Training Methods on Flemish Dutch Jakob Poncelet Hugo Van hamme SSL 28 1 0 29 Sep 2021
Optimized Power Normalized Cepstral Coefficients towards Robust Deep Speaker Verification Xuechen Liu Md. Sahidullah Tomi Kinnunen 38 6 0 24 Sep 2021
Self-supervised Contrastive Cross-Modality Representation Learning for Spoken Question Answering Chenyu You Nuo Chen Yuexian Zou SSL 27 63 0 08 Sep 2021
Fine-Grained Classroom Activity Detection from Audio with Neural Networks Eric Slyman Chris Daw Morgan Skrabut A. Usenko Brian Hutchinson HAI 25 5 0 29 Jul 2021
An Adapter Based Pre-Training for Efficient and Scalable Self-Supervised Speech Representation Learning Samuel Kessler Bethan Thomas S. Karout SSL 27 29 0 26 Jul 2021
Layer-wise Analysis of a Self-supervised Speech Representation Model Ankita Pasad Ju-Chieh Chou Karen Livescu SSL 26 291 0 10 Jul 2021
Representation based meta-learning for few-shot spoken intent recognition Ashish R. Mittal Samarth Bharadwaj Shreya Khare Saneem A. Chemmengath Karthik Sankaranarayanan Brian Kingsbury 20 12 0 29 Jun 2021
LiRA: Learning Visual Speech Representations from Audio through Self-supervision Pingchuan Ma Rodrigo Mira Stavros Petridis Björn W. Schuller Maja Pantic SSL 24 53 0 16 Jun 2021
SUPERB: Speech processing Universal PERformance Benchmark Shu-Wen Yang Po-Han Chi Yung-Sung Chuang Cheng-I Jeff Lai Kushal Lakhotia ... Shuyan Dong Shang-Wen Li Shinji Watanabe Abdel-rahman Mohamed Hung-yi Lee SSL 59 891 0 03 May 2021
End-to-End Video-To-Speech Synthesis using Generative Adversarial Networks Rodrigo Mira Konstantinos Vougioukas Pingchuan Ma Stavros Petridis Björn W. Schuller Maja Pantic 32 43 0 27 Apr 2021
Conditional independence for pretext task selection in Self-supervised speech representation learning Salah Zaiem Titouan Parcollet S. Essid SSL 6 4 0 15 Apr 2021
Timers and Such: A Practical Benchmark for Spoken Language Understanding with Numbers Loren Lugosch Piyush Papreja Mirco Ravanelli A. Heba Titouan Parcollet 27 13 0 04 Apr 2021