A Fine-tuned Wav2vec 2.0/HuBERT Benchmark For Speech Emotion Recognition, Speaker Verification and Spoken Language Understanding

4 November 2021

Papers citing "A Fine-tuned Wav2vec 2.0/HuBERT Benchmark For Speech Emotion Recognition, Speaker Verification and Spoken Language Understanding"

28 / 28 papers shown

Title
BERSting at the Screams: A Benchmark for Distanced, Emotional and Shouted Speech Recognition Paige Tuttosi Mantaj Dhillon Luna Sang Shane Eastwood Poorvi Bhatia Quang Minh Dinh Avni Kapoor Yewon Jin Angelica Lim 26 0 0 30 Apr 2025
Exploring Prediction Targets in Masked Pre-Training for Speech Foundation Models Li-Wei Chen Takuya Higuchi He Bai Ahmed Hussen Abdelaziz Alexander Rudnicky Shinji Watanabe Tatiana Likhomanenko B. Theobald Zakaria Aldeneh 49 0 0 16 Sep 2024
Exploring Self-Supervised Multi-view Contrastive Learning for Speech Emotion Recognition with Limited Annotations Bulat Khaertdinov Pedro Jeuris Annanda Sousa Enrique Hortal 35 1 0 12 Jun 2024
SpeechVerse: A Large-scale Generalizable Audio Language Model Nilaksh Das Saket Dingliwal S. Ronanki Rohit Paturi David Huang ... Monica Sunkara S. Srinivasan Kyu J. Han Katrin Kirchhoff Katrin Kirchhoff 41 37 0 14 May 2024
A Large-Scale Evaluation of Speech Foundation Models Shu-Wen Yang Heng-Jui Chang Zili Huang Andy T. Liu Cheng-I Jeff Lai ... Kushal Lakhotia Shang-Wen Li Abdelrahman Mohamed Shinji Watanabe Hung-yi Lee 38 19 0 15 Apr 2024
A Multi-Task, Multi-Modal Approach for Predicting Categorical and Dimensional Emotions Alex-Răzvan Ispas Théo Deschamps-Berger Laurence Devillers 40 1 0 31 Dec 2023
emotion2vec: Self-Supervised Pre-Training for Speech Emotion Representation Ziyang Ma Zhisheng Zheng Jiaxin Ye Jinchao Li Zhifu Gao Shiliang Zhang Xie Chen MDE SLR SSL 25 86 0 23 Dec 2023
Speech Emotion Recognition with Distilled Prosodic and Linguistic Affect Representations Debaditya Shome Ali Etemad 30 5 0 09 Sep 2023
Leveraging Label Information for Multimodal Emotion Recognition Pei-Hsin Wang Sunlu Zeng Junqing Chen Lu Fan Meng Chen Youzheng Wu Xiaodong He 29 4 0 05 Sep 2023
MFSN: Multi-perspective Fusion Search Network For Pre-training Knowledge in Speech Emotion Recognition Haiyang Sun Fulin Zhang Yingying Gao Zheng Lian Shilei Zhang Junlan Feng 25 4 0 12 Jun 2023
Recycle-and-Distill: Universal Compression Strategy for Transformer-based Speech SSL Models with Attention Map Reusing and Masking Distillation Kangwook Jang Sungnyun Kim Se-Young Yun Hoi-Rim Kim 29 5 0 19 May 2023
The Interpreter Understands Your Meaning: End-to-end Spoken Language Understanding Aided by Speech Translation Mutian He Philip N. Garner 41 4 0 16 May 2023
Fast Conformer with Linearly Scalable Attention for Efficient Speech Recognition Dima Rekesh Nithin Rao Koluguri Samuel Kriman Somshubra Majumdar Vahid Noroozi ... Oleksii Hrinchuk Krishna Puvvada Ankur Kumar Jagadeesh Balam Boris Ginsburg 42 81 0 08 May 2023
A vector quantized masked autoencoder for audiovisual speech emotion recognition Samir Sadok Simon Leglaive Renaud Séguier SSL 79 6 0 05 May 2023
A vector quantized masked autoencoder for speech emotion recognition Samir Sadok Simon Leglaive Renaud Séguier 32 20 0 21 Apr 2023
Efficient Sequence Transduction by Jointly Predicting Tokens and Durations Hainan Xu Fei Jia Somshubra Majumdar Hengguan Huang Shinji Watanabe Boris Ginsburg 27 17 0 13 Apr 2023
Designing and Evaluating Speech Emotion Recognition Systems: A reality check case study with IEMOCAP Nikolaos Antoniou Athanasios Katsamanis Theodoros Giannakopoulos Shrikanth Narayanan 23 17 0 03 Apr 2023
Parameter Efficient Transfer Learning for Various Speech Processing Tasks Shinta Otake Rei Kawakami Nakamasa Inoue 24 16 0 06 Dec 2022
Phoneme Segmentation Using Self-Supervised Speech Models Luke Strgar David Harwath SSL 32 10 0 02 Nov 2022
Predicting Multi-Codebook Vector Quantization Indexes for Knowledge Distillation Liyong Guo Xiaoyu Yang Quandong Wang Yuxiang Kong Zengwei Yao ... Wei Kang Long Lin Mingshuang Luo Piotr Żelasko Daniel Povey VLM 29 7 0 31 Oct 2022
SUPERB @ SLT 2022: Challenge on Generalization and Efficiency of Self-Supervised Speech Representation Learning Tzu-hsun Feng Annie Dong Ching-Feng Yeh Shu-Wen Yang Tzu-Quan Lin ... Xuankai Chang Shinji Watanabe Abdel-rahman Mohamed Shang-Wen Li Hung-yi Lee ELM SSL 28 33 0 16 Oct 2022
Training speech emotion classifier without categorical annotations Meysam Shamsi Marie Tahon 18 2 0 14 Oct 2022
Self-Supervised Speech Representation Learning: A Review Abdel-rahman Mohamed Hung-yi Lee Lasse Borgholt Jakob Drachmann Havtorn Joakim Edin ... Shang-Wen Li Karen Livescu Lars Maaløe Tara N. Sainath Shinji Watanabe SSL AI4TS 131 349 0 21 May 2022
MTI-Net: A Multi-Target Speech Intelligibility Prediction Model Ryandhimas E. Zezario Szu-Wei Fu Fei Chen C. Fuh Hsin-Min Wang Yu Tsao 24 13 0 07 Apr 2022
Visualizations of Complex Sequences of Family-Infant Vocalizations Using Bag-of-Audio-Words Approach Based on Wav2vec 2.0 Features Jialu Li M. Hasegawa-Johnson Nancy L. McElwain 16 0 0 29 Mar 2022
Fine-tuning wav2vec2 for speaker recognition Nik Vaessen David A. van Leeuwen 39 107 0 30 Sep 2021
Exploring wav2vec 2.0 on speaker verification and language identification Zhiyun Fan Meng Li Shiyu Zhou Bo Xu 117 202 0 11 Dec 2020
Multi-task self-supervised learning for Robust Speech Recognition Mirco Ravanelli Jianyuan Zhong Santiago Pascual P. Swietojanski João Monteiro J. Trmal Yoshua Bengio SSL 189 288 0 25 Jan 2020