DeCoAR 2.0: Deep Contextualized Acoustic Representations with Vector Quantization

11 December 2020

Papers citing "DeCoAR 2.0: Deep Contextualized Acoustic Representations with Vector Quantization"

36 / 36 papers shown

Title
Speech Representation Learning Revisited: The Necessity of Separate Learnable Parameters and Robust Data Augmentation Hemant Yadav Sunayana Sitaram R. Shah SSL 49 0 0 20 Aug 2024
A Large-Scale Evaluation of Speech Foundation Models Shu-Wen Yang Heng-Jui Chang Zili Huang Andy T. Liu Cheng-I Jeff Lai ... Kushal Lakhotia Shang-Wen Li Abdelrahman Mohamed Shinji Watanabe Hung-yi Lee 38 19 0 15 Apr 2024
FAT-HuBERT: Front-end Adaptive Training of Hidden-unit BERT for Distortion-Invariant Robust Speech Recognition Dongning Yang Wei Wang Yanmin Qian 13 3 0 29 Nov 2023
On-Device Constrained Self-Supervised Speech Representation Learning for Keyword Spotting via Knowledge Distillation Gene-Ping Yang Yue Gu Qingming Tang Dongsu Du Yuzong Liu 22 5 0 06 Jul 2023
MiniSUPERB: Lightweight Benchmark for Self-supervised Speech Models Yu-Hsiang Wang Huan Chen Kai-Wei Chang Winston H. Hsu Hung-yi Lee 27 6 0 30 May 2023
DinoSR: Self-Distillation and Online Clustering for Self-supervised Speech Representation Learning Alexander H. Liu Heng-Jui Chang Michael Auli Wei-Ning Hsu James R. Glass 27 25 0 17 May 2023
Transformers in Speech Processing: A Survey S. Latif Aun Zaidi Heriberto Cuayáhuitl Fahad Shamshad Moazzam Shoukat Junaid Qadir 42 47 0 21 Mar 2023
BrainBERT: Self-supervised representation learning for intracranial recordings Christopher Wang Vighnesh Subramaniam A. Yaari Gabriel Kreiman Boris Katz Ignacio Cases Andrei Barbu MedIm SSL 27 31 0 28 Feb 2023
Phone and speaker spatial organization in self-supervised speech representations Pablo Riera M. Cerdeiro L. Pepino Luciana Ferrer SSL 21 1 0 24 Feb 2023
TESSP: Text-Enhanced Self-Supervised Speech Pre-training Zhuoyuan Yao Shuo Ren Sanyuan Chen Ziyang Ma Pengcheng Guo Linfu Xie 24 5 0 24 Nov 2022
Device Directedness with Contextual Cues for Spoken Dialog Systems Dhanush Bekal S. Srinivasan S. Bodapati S. Ronanki Katrin Kirchhoff 42 1 0 23 Nov 2022
MelHuBERT: A simplified HuBERT on Mel spectrograms Tzu-Quan Lin Hung-yi Lee Hao Tang SSL 32 13 0 17 Nov 2022
Self-supervised learning with bi-label masked speech prediction for streaming multi-talker speech recognition Zili Huang Zhuo Chen Naoyuki Kanda Jian Wu Yiming Wang Jinyu Li Takuya Yoshioka Xiaofei Wang Peidong Wang 25 3 0 10 Nov 2022
SUPERB @ SLT 2022: Challenge on Generalization and Efficiency of Self-Supervised Speech Representation Learning Tzu-hsun Feng Annie Dong Ching-Feng Yeh Shu-Wen Yang Tzu-Quan Lin ... Xuankai Chang Shinji Watanabe Abdel-rahman Mohamed Shang-Wen Li Hung-yi Lee ELM SSL 34 33 0 16 Oct 2022
M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation Jinming Zhao Haomiao Yang Ehsan Shareghi Gholamreza Haffari 48 19 0 03 Jul 2022
Contrastive Siamese Network for Semi-supervised Speech Recognition S. Khorram Jaeyoung Kim Anshuman Tripathi Han Lu Qian Zhang Hasim Sak SSL 29 11 0 27 May 2022
Self-Supervised Speech Representation Learning: A Review Abdel-rahman Mohamed Hung-yi Lee Lasse Borgholt Jakob Drachmann Havtorn Joakim Edin ... Shang-Wen Li Karen Livescu Lars Maaløe Tara N. Sainath Shinji Watanabe SSL AI4TS 137 350 0 21 May 2022
Silence is Sweeter Than Speech: Self-Supervised Model Using Silence to Store Speaker Information Chiyu Feng Po-Chun Hsu Hung-yi Lee SSL 31 8 0 08 May 2022
ContentVec: An Improved Self-Supervised Speech Representation by Disentangling Speakers Kaizhi Qian Yang Zhang Heting Gao Junrui Ni Cheng-I Jeff Lai David D. Cox M. Hasegawa-Johnson Shiyu Chang DRL 30 110 0 20 Apr 2022
Autoregressive Co-Training for Learning Discrete Speech Representations Sung-Lin Yeh Hao Tang SSL 24 6 0 29 Mar 2022
DeLoRes: Decorrelating Latent Spaces for Low-Resource Audio Representation Learning Sreyan Ghosh Ashish Seth and Deepak Mittal Maneesh Singh S. Umesh SSL 27 6 0 25 Mar 2022
Semi-FedSER: Semi-supervised Learning for Speech Emotion Recognition On Federated Learning using Multiview Pseudo-Labeling Tiantian Feng Shrikanth Narayanan 38 17 0 15 Mar 2022
SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark for Semantic and Generative Capabilities Hsiang-Sheng Tsai Heng-Jui Chang Wen-Chin Huang Zili Huang Kushal Lakhotia ... Hsuan-Jui Chen Shang-Wen Li Shinji Watanabe Abdel-rahman Mohamed Hung-yi Lee 26 109 0 14 Mar 2022
A Brief Overview of Unsupervised Neural Speech Representation Learning Lasse Borgholt Jakob Drachmann Havtorn Joakim Edin Lars Maaløe Christian Igel BDL AI4TS SSL 19 11 0 01 Mar 2022
Learning Audio-Visual Speech Representation by Masked Multimodal Cluster Prediction Bowen Shi Wei-Ning Hsu Kushal Lakhotia Abdel-rahman Mohamed SSL 46 305 0 05 Jan 2022
Attribute Inference Attack of Speech Emotion Recognition in Federated Learning Settings Tiantian Feng H. Hashemi Rajat Hebbar M. Annavaram Shrikanth S. Narayanan 26 25 0 26 Dec 2021
Self-Supervised Learning for speech recognition with Intermediate layer supervision Chengyi Wang Yu-Huan Wu Sanyuan Chen Shujie Liu Jinyu Li Yao Qian Zhenglu Yang SSL 26 28 0 16 Dec 2021
On the Use of External Data for Spoken Named Entity Recognition Ankita Pasad Felix Wu Suwon Shon Karen Livescu Kyu Jeong Han 40 16 0 14 Dec 2021
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing Sanyuan Chen Chengyi Wang Zhengyang Chen Yu-Huan Wu Shujie Liu ... Yao Qian Jian Wu Micheal Zeng Xiangzhan Yu Furu Wei SSL 118 1,715 0 26 Oct 2021
Speech Representation Learning Through Self-supervised Pretraining And Multi-task Finetuning Yi-Chen Chen Shu-Wen Yang Cheng-Kuang Lee Simon See Hung-yi Lee SSL 19 12 0 18 Oct 2021
DECAR: Deep Clustering for learning general-purpose Audio Representations Sreyan Ghosh Sandesh V Katta Ashish Seth S. Umesh SSL 36 12 0 17 Oct 2021
DistilHuBERT: Speech Representation Learning by Layer-wise Distillation of Hidden-unit BERT Heng-Jui Chang Shu-Wen Yang Hung-yi Lee SSL 43 165 0 05 Oct 2021
Text-Free Prosody-Aware Generative Spoken Language Modeling Eugene Kharitonov Ann Lee Adam Polyak Yossi Adi Jade Copet ... Tu Nguyen M. Rivière Abdel-rahman Mohamed Emmanuel Dupoux Wei-Ning Hsu 35 116 0 07 Sep 2021
Scaling Laws for Acoustic Models J. Droppo Oguz H. Elibol 15 22 0 11 Jun 2021
Non-Autoregressive Predictive Coding for Learning Speech Representations from Local Dependencies Alexander H. Liu Yu-An Chung James R. Glass SSL 27 87 0 01 Nov 2020
Probing Acoustic Representations for Phonetic Properties Danni Ma Neville Ryant M. Liberman 25 45 0 25 Oct 2020