Leveraging Speech PTM, Text LLM, and Emotional TTS for Speech Emotion Recognition

19 September 2023

Ziyang Ma

Wen Wu

Zhisheng Zheng

Yiwei Guo

Qian Chen

Shiliang Zhang

Xie Chen

ArXiv PDF HTML

Papers citing "Leveraging Speech PTM, Text LLM, and Emotional TTS for Speech Emotion Recognition"

20 / 20 papers shown

Title
Vesper: A Compact and Effective Pretrained Model for Speech Emotion Recognition Weidong Chen Xiaofen Xing Peihao Chen Xiangmin Xu VLM 53 39 0 20 Jul 2023
MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech Recognition Xiaohuan Zhou Jiaming Wang Zeyu Cui Shiliang Zhang Zhijie Yan Jingren Zhou Chang Zhou 60 12 0 29 Nov 2022
TESSP: Text-Enhanced Self-Supervised Speech Pre-training Zhuoyuan Yao Shuo Ren Sanyuan Chen Ziyang Ma Pengcheng Guo Linfu Xie 49 5 0 24 Nov 2022
EmoDiff: Intensity Controllable Emotional Text-to-Speech with Soft-Label Guidance Yiwei Guo Chenpeng Du Xie Chen K. Yu DiffM 90 43 0 17 Nov 2022
MT4SSL: Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets Ziyang Ma Zhisheng Zheng Changli Tang Yujin Wang Xie Chen 67 20 0 14 Nov 2022
Exploration of A Self-Supervised Speech Model: A Study on Emotional Corpora Yuanchao Li Yumnah Mohamied P. Bell Catherine Lai SSL 62 47 0 05 Oct 2022
Multitask Learning from Augmented Auxiliary Data for Improving Speech Emotion Recognition S. Latif R. Rana Sara Khalifa Raja Jurdak Björn W. Schuller 45 23 0 12 Jul 2022
Dawn of the transformer era in speech emotion recognition: closing the valence gap Johannes Wagner Andreas Triantafyllopoulos H. Wierstorf Maximilian Schmitt Felix Burkhardt F. Eyben Björn W. Schuller 61 300 0 14 Mar 2022
data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language Alexei Baevski Wei-Ning Hsu Qiantong Xu Arun Babu Jiatao Gu Michael Auli SSL VLM ViT 89 852 0 07 Feb 2022
Speech Emotion Recognition using Self-Supervised Features E. Morais R. Hoory Weizhong Zhu Itai Gat Matheus Damasceno Hagai Aronowitz SSL MDE 45 117 0 07 Feb 2022
Speaker Normalization for Self-supervised Speech Emotion Recognition Itai Gat Hagai Aronowitz Weizhong Zhu E. Morais R. Hoory 64 52 0 02 Feb 2022
A Fine-tuned Wav2vec 2.0/HuBERT Benchmark For Speech Emotion Recognition, Speaker Verification and Spoken Language Understanding Yingzhi Wang Abdelmoumene Boumadane A. Heba 46 150 0 04 Nov 2021
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing Sanyuan Chen Chengyi Wang Zhengyang Chen Yu-Huan Wu Shujie Liu ... Yao Qian Jian Wu Micheal Zeng Xiangzhan Yu Furu Wei SSL 206 1,846 0 26 Oct 2021
HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units Wei-Ning Hsu Benjamin Bolte Yao-Hung Hubert Tsai Kushal Lakhotia Ruslan Salakhutdinov Abdel-rahman Mohamed SSL 147 2,939 0 14 Jun 2021
GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of Transcribed Audio Guoguo Chen Shuzhou Chai Guan-Bo Wang Jiayu Du Weiqiang Zhang ... Xuchen Yao Yongqing Wang Yujun Wang Zhao You Zhiyong Yan 100 372 0 13 Jun 2021
Emotion Recognition from Speech Using Wav2vec 2.0 Embeddings L. Pepino Pablo Riera Luciana Ferrer 46 360 0 08 Apr 2021
wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations Alexei Baevski Henry Zhou Abdel-rahman Mohamed Michael Auli SSL 228 5,774 0 20 Jun 2020
Deep Architecture Enhancing Robustness to Noise, Adversarial Attacks, and Cross-corpus Setting for Speech Emotion Recognition S. Latif R. Rana Sara Khalifa Raja Jurdak Björn W. Schuller 90 28 0 18 May 2020
mixup: Beyond Empirical Risk Minimization Hongyi Zhang Moustapha Cissé Yann N. Dauphin David Lopez-Paz NoLa 271 9,743 0 25 Oct 2017
Domain-Adversarial Training of Neural Networks Yaroslav Ganin E. Ustinova Hana Ajakan Pascal Germain Hugo Larochelle François Laviolette M. Marchand Victor Lempitsky GAN OOD 366 9,467 0 28 May 2015