vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations

12 October 2019

Papers citing "vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations"

50 / 188 papers shown

Title
Word Segmentation on Discovered Phone Units with Dynamic Programming and Self-Supervised Scoring Herman Kamper 34 25 0 24 Feb 2022
Improving Automatic Speech Recognition for Non-Native English with Transfer Learning and Language Model Decoding Peter Sullivan Toshiko Shibano Muhammad Abdul-Mageed 44 11 0 10 Feb 2022
Self-Supervised Representation Learning for Speech Using Visual Grounding and Masked Language Modeling Puyuan Peng David Harwath SSL 43 26 0 07 Feb 2022
SPIRAL: Self-supervised Perturbation-Invariant Representation Learning for Speech Pre-Training Wenyong Huang Zhenhe Zhang Y. Yeung Xin Jiang Qun Liu 38 23 0 25 Jan 2022
Supervised and Self-supervised Pretraining Based COVID-19 Detection Using Acoustic Breathing/Cough/Speech Signals Xing-Yu Chen Qiu-shi Zhu Jie Zhang Lirong Dai 29 14 0 22 Jan 2022
CM3: A Causal Masked Multimodal Model of the Internet Armen Aghajanyan Po-Yao (Bernie) Huang Candace Ross Vladimir Karpukhin Hu Xu ... Dmytro Okhonko Mandar Joshi Gargi Ghosh M. Lewis Luke Zettlemoyer 17 155 0 19 Jan 2022
IQDUBBING: Prosody modeling based on discrete self-supervised speech representation for expressive voice conversion Wendong Gan Bolong Wen Yin Yan Haitao Chen Zhichao Wang Hongqiang Du Lei Xie Kaixuan Guo Hai Li 15 14 0 02 Jan 2022
Bridging the Gap: Using Deep Acoustic Representations to Learn Grounded Language from Percepts and Raw Speech Gaoussou Youssouf Kebe Luke E. Richards Edward Raff Francis Ferraro Cynthia Matuszek SSL 22 5 0 27 Dec 2021
Multimodal Image Synthesis and Editing: The Generative AI Era Fangneng Zhan Yingchen Yu Rongliang Wu Jiahui Zhang Shijian Lu Lingjie Liu Adam Kortylewski Christian Theobalt Eric Xing EGVM 36 48 0 27 Dec 2021
Self-Supervised Learning for speech recognition with Intermediate layer supervision Chengyi Wang Yu-Huan Wu Sanyuan Chen Shujie Liu Jinyu Li Yao Qian Zhenglu Yang SSL 26 28 0 16 Dec 2021
XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale Arun Babu Changhan Wang Andros Tjandra Kushal Lakhotia Qiantong Xu ... Yatharth Saraf J. Pino Alexei Baevski Alexis Conneau Michael Auli SSL 32 663 0 17 Nov 2021
Recent Advances in End-to-End Automatic Speech Recognition Jinyu Li VLM 37 363 0 02 Nov 2021
Improving Noise Robustness of Contrastive Speech Representation Learning with Speech Reconstruction Heming Wang Yao Qian Xiaofei Wang Yiming Wang Chengyi Wang Shujie Liu Takuya Yoshioka Jinyu Li DeLiang Wang 23 29 0 28 Oct 2021
VQ-GNN: A Universal Framework to Scale up Graph Neural Networks using Vector Quantization Mucong Ding Kezhi Kong Jingling Li Chen Zhu John P. Dickerson Furong Huang Tom Goldstein GNN MQ 33 47 0 27 Oct 2021
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing Sanyuan Chen Chengyi Wang Zhengyang Chen Yu-Huan Wu Shujie Liu ... Yao Qian Jian Wu Micheal Zeng Xiangzhan Yu Furu Wei SSL 135 1,721 0 26 Oct 2021
SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text Joint Pre-Training Ankur Bapna Yu-An Chung Na Wu Anmol Gulati Ye Jia J. Clark Melvin Johnson Jason Riesa Alexis Conneau Yu Zhang VLM 64 94 0 20 Oct 2021
Speech Representation Learning Through Self-supervised Pretraining And Multi-task Finetuning Yi-Chen Chen Shu-Wen Yang Cheng-Kuang Lee Simon See Hung-yi Lee SSL 19 12 0 18 Oct 2021
The Impact of Spatiotemporal Augmentations on Self-Supervised Audiovisual Representation Learning Haider Al-Tahan Y. Mohsenzadeh SSL AI4TS 34 0 0 13 Oct 2021
UniSpeech-SAT: Universal Speech Representation Learning with Speaker Aware Pre-Training Sanyuan Chen Yu Wu Chengyi Wang Zhengyang Chen Zhuo Chen ... Jian Wu Yao Qian Furu Wei Jinyu Li Xiangzhan Yu SSL 30 85 0 12 Oct 2021
Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs for Robust Speech Recognition Yiming Wang Jinyu Li Heming Wang Yao Qian Chengyi Wang Yu Wu 38 48 0 11 Oct 2021
Injecting Text and Cross-lingual Supervision in Few-shot Learning from Self-Supervised Models Sanjeev Khudanpur Desh Raj Sanjeev Khudanpur 59 6 0 10 Oct 2021
An Exploration of Self-Supervised Pretrained Representations for End-to-End Speech Recognition Xuankai Chang Takashi Maekaku Pengcheng Guo Jing Shi Yen-Ju Lu ... Tianzi Wang Shu-Wen Yang Yu Tsao Hung-yi Lee Shinji Watanabe SSL AI4TS 24 81 0 09 Oct 2021
Neural Model Reprogramming with Similarity Based Mapping for Low-Resource Spoken Command Recognition Hao Yen Pin-Jui Ku Chao-Han Huck Yang Hu Hu Sabato Marco Siniscalchi Pin-Yu Chen Yu Tsao 40 4 0 08 Oct 2021
Mandarin-English Code-switching Speech Recognition with Self-supervised Speech Representation Models Liang-Hsuan Tseng Yu-Kuan Fu Heng-Jui Chang Hung-yi Lee SSL 28 14 0 07 Oct 2021
Attention is All You Need? Good Embeddings with Statistics are enough:Large Scale Audio Understanding without Transformers/ Convolutions/ BERTs/ Mixers/ Attention/ RNNs or .... Prateek Verma AI4TS 32 2 0 07 Oct 2021
Interpreting intermediate convolutional layers in unsupervised acoustic word classification Gašper Beguš Alan Zhou FAtt SSL 33 5 0 05 Oct 2021
Unsupervised Speech Segmentation and Variable Rate Representation Learning using Segmental Contrastive Predictive Coding Saurabhchand Bhati Jesús Villalba Piotr Żelasko Laureano Moro-Velazquez Najim Dehak SSL 55 22 0 05 Oct 2021
DistilHuBERT: Speech Representation Learning by Layer-wise Distillation of Hidden-unit BERT Heng-Jui Chang Shu-Wen Yang Hung-yi Lee SSL 43 165 0 05 Oct 2021
A Review of the Gumbel-max Trick and its Extensions for Discrete Stochasticity in Machine Learning Iris A. M. Huijben W. Kool Max B. Paulus Ruud J. G. van Sloun 28 94 0 04 Oct 2021
Comparison of Self-Supervised Speech Pre-Training Methods on Flemish Dutch Jakob Poncelet Hugo Van hamme SSL 28 1 0 29 Sep 2021
BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition Yu Zhang Daniel S. Park Wei Han James Qin Anmol Gulati ... Zhifeng Chen Quoc V. Le Chung-Cheng Chiu Ruoming Pang Yonghui Wu SSL 27 175 0 27 Sep 2021
Simple and Effective Zero-shot Cross-lingual Phoneme Recognition Qiantong Xu Alexei Baevski Michael Auli VLM 29 78 0 23 Sep 2021
Self-supervised Contrastive Cross-Modality Representation Learning for Spoken Question Answering Chenyu You Nuo Chen Yuexian Zou SSL 27 63 0 08 Sep 2021
CTAL: Pre-training Cross-modal Transformer for Audio-and-Language Representations Hang Li Yunxing Kang Tianqiao Liu Wenbiao Ding Zitao Liu 36 17 0 01 Sep 2021
Analyzing Speaker Information in Self-Supervised Models to Improve Zero-Resource Speech Processing Benjamin van Niekerk Leanne Nortje Matthew Baas Herman Kamper SSL 38 31 0 02 Aug 2021
Proposal-based Few-shot Sound Event Detection for Speech and Environmental Sounds with Perceivers Piper Wolters Logan Sizemore Chris Daw Brian Hutchinson Lauren A. Phillips 37 11 0 28 Jul 2021
Learning De-identified Representations of Prosody from Raw Audio J. Weston R. Lenain U. Meepegama E. Fristed SSL 32 15 0 17 Jul 2021
Improved Language Identification Through Cross-Lingual Self-Supervised Learning Andros Tjandra Diptanu Gon Choudhury Frank Zhang Kritika Singh Alexis Conneau Alexei Baevski Assaf Sela Yatharth Saraf Michael Auli VLM SSL 24 35 0 08 Jul 2021
A Generative Model for Raw Audio Using Transformer Architectures Prateek Verma C. Chafe 30 28 0 30 Jun 2021
VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised Speech Representation Disentanglement for One-shot Voice Conversion Disong Wang Liqun Deng Y. Yeung Xiao Chen Xunying Liu Helen Meng DRL 22 136 0 18 Jun 2021
Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning Haibin Wu Xu Li Andy T. Liu Zhiyong Wu Helen Meng Hung-yi Lee AAML SSL 50 29 0 01 Jun 2021
One4all User Representation for Recommender Systems in E-commerce Kyuyong Shin Hanock Kwak KyungHyun Kim Minkyu Kim Young-Jin Park Jisu Jeong Seungjae Jung 36 27 0 24 May 2021
Self-Supervised Learning from Automatically Separated Sound Scenes Eduardo Fonseca A. Jansen D. Ellis Scott Wisdom Marco Tagliasacchi J. Hershey Manoj Plakal Shawn Hershey R. C. Moore Xavier Serra SSL 44 13 0 05 May 2021
SUPERB: Speech processing Universal PERformance Benchmark Shu-Wen Yang Po-Han Chi Yung-Sung Chuang Cheng-I Jeff Lai Kushal Lakhotia ... Shuyan Dong Shang-Wen Li Shinji Watanabe Abdel-rahman Mohamed Hung-yi Lee SSL 59 891 0 03 May 2021
End-to-end Speech Translation via Cross-modal Progressive Training Rong Ye Mingxuan Wang Lei Li 28 71 0 21 Apr 2021
Layer Reduction: Accelerating Conformer-Based Self-Supervised Model via Layer Consistency Jinchuan Tian Rongzhi Gu Helin Wang Yuexian Zou 26 0 0 08 Apr 2021
Robust wav2vec 2.0: Analyzing Domain Shift in Self-Supervised Pre-Training Wei-Ning Hsu Anuroop Sriram Alexei Baevski Tatiana Likhomanenko Qiantong Xu ... Jacob Kahn Ann Lee R. Collobert Gabriel Synnaeve Michael Auli SSL 25 237 0 02 Apr 2021
Wav2vec-C: A Self-supervised Model for Speech Representation Learning Samik Sadhu Di He Che-Wei Huang Sri Harish Reddy Mallidi Minhua Wu Ariya Rastrow A. Stolcke J. Droppo Roland Maas SSL 20 48 0 09 Mar 2021
Contrastive Learning Inverts the Data Generating Process Roland S. Zimmermann Yash Sharma Steffen Schneider Matthias Bethge Wieland Brendel SSL 238 211 0 17 Feb 2021
Improving speech recognition models with small samples for air traffic control systems Yi Lin Qin Li Bo Yang Zhen Yan Huachun Tan Zhengmao Chen 36 32 0 16 Feb 2021