Combining Contrastive and Non-Contrastive Losses for Fine-Tuning Pretrained Models in Speech Analysis

21 October 2022

Papers citing "Combining Contrastive and Non-Contrastive Losses for Fine-Tuning Pretrained Models in Speech Analysis"

23 / 23 papers shown

Title
HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units Wei-Ning Hsu Benjamin Bolte Yao-Hung Hubert Tsai Kushal Lakhotia Ruslan Salakhutdinov Abdel-rahman Mohamed SSL 184 3,003 0 14 Jun 2021
SUPERB: Speech processing Universal PERformance Benchmark Shu-Wen Yang Po-Han Chi Yung-Sung Chuang Cheng-I Jeff Lai Kushal Lakhotia ... Shuyan Dong Shang-Wen Li Shinji Watanabe Abdel-rahman Mohamed Hung-yi Lee SSL 111 943 0 03 May 2021
Emotion Recognition from Speech Using Wav2vec 2.0 Embeddings L. Pepino Pablo Riera Luciana Ferrer 78 365 0 08 Apr 2021
Barlow Twins: Self-Supervised Learning via Redundancy Reduction Jure Zbontar Li Jing Ishan Misra Yann LeCun Stéphane Deny SSL 347 2,366 0 04 Mar 2021
Applying Wav2vec2.0 to Speech Recognition in Various Low-resource Languages Cheng Yi Jianzhong Wang Ning Cheng Shiyu Zhou Bo Xu SSL VLM 83 82 0 22 Dec 2020
DeCoAR 2.0: Deep Contextualized Acoustic Representations with Vector Quantization Shaoshi Ling Yuzong Liu 65 107 0 11 Dec 2020
Exploring wav2vec 2.0 on speaker verification and language identification Zhiyun Fan Meng Li Shiyu Zhou Bo Xu 143 203 0 11 Dec 2020
TERA: Self-Supervised Learning of Transformer Encoder Representation for Speech Andy T. Liu Shang-Wen Li Hung-yi Lee SSL 132 359 0 12 Jul 2020
wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations Alexei Baevski Henry Zhou Abdel-rahman Mohamed Michael Auli SSL 299 5,849 0 20 Jun 2020
ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN Based Speaker Verification Brecht Desplanques Jenthe Thienpondt Kris Demuynck 78 1,346 0 14 May 2020
Simple and Effective Prevention of Mode Collapse in Deep One-Class Classification Penny Chong Lukas Ruff Marius Kloft Alexander Binder 107 35 0 24 Jan 2020
Common Voice: A Massively-Multilingual Speech Corpus Rosana Ardila Megan Branson Kelly Davis Michael Henretty M. Kohler Josh Meyer Reuben Morais Lindsay Saunders Francis M. Tyers Gregor Weber VLM 93 1,620 0 13 Dec 2019
Deep Contextualized Acoustic Representations For Semi-Supervised Speech Recognition Shaoshi Ling Yuzong Liu Julian Salazar Katrin Kirchhoff SSL 71 139 0 03 Dec 2019
Mockingjay: Unsupervised Speech Representation Learning with Deep Bidirectional Transformer Encoders Andy T. Liu Shu-Wen Yang Po-Han Chi Po-Chun Hsu Hung-yi Lee SSL 155 374 0 25 Oct 2019
End-to-End Multi-Speaker Speech Recognition using Speaker Embeddings and Transfer Learning Pavel Denisov Ngoc Thang Vu 40 27 0 13 Aug 2019
Avoiding Latent Variable Collapse With Generative Skip Models Adji Bousso Dieng Yoon Kim Alexander M. Rush David M. Blei DRL 58 175 0 12 Jul 2018
Representation Learning with Contrastive Predictive Coding Aaron van den Oord Yazhe Li Oriol Vinyals DRL SSL 351 10,364 0 10 Jul 2018
Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis Ye Jia Yu Zhang Ron J. Weiss Quan Wang Jonathan Shen ... Zhiwen Chen Patrick Nguyen Ruoming Pang Ignacio López Moreno Yonghui Wu 266 837 0 12 Jun 2018
Learning to Compare: Relation Network for Few-Shot Learning Flood Sung Yongxin Yang Li Zhang Tao Xiang Philip Torr Timothy M. Hospedales 311 4,054 0 16 Nov 2017
Generalized End-to-End Loss for Speaker Verification Li Wan Quan Wang Alan Papir Ignacio López Moreno VLM 84 933 0 28 Oct 2017
VoxCeleb: a large-scale speaker identification dataset Arsha Nagrani Joon Son Chung Andrew Zisserman 127 2,283 0 26 Jun 2017
Prototypical Networks for Few-shot Learning Jake C. Snell Kevin Swersky R. Zemel 305 8,154 0 15 Mar 2017
Deep metric learning using Triplet network Elad Hoffer Nir Ailon SSL DML 208 2,000 0 20 Dec 2014