wav2letter++: The Fastest Open-source Speech Recognition System

18 December 2018

Papers citing "wav2letter++: The Fastest Open-source Speech Recognition System"

34 / 34 papers shown

Title
TS-SUPERB: A Target Speech Processing Benchmark for Speech Self-Supervised Learning Models Junyi Peng Takanori Ashihara Marc Delcroix Tsubasa Ochiai Oldrich Plchot Shoko Araki J. Černocký ELM 29 0 0 10 May 2025
emg2qwerty: A Large Dataset with Baselines for Touch Typing using Surface Electromyography Viswanath Sivakumar Jeffrey Seely Alan Du Sean R Bittner Adam Berenzweig Anuoluwapo Bolarinwa Alexandre Gramfort Michael I Mandel 18 3 0 26 Oct 2024
Evaluating OpenAI's Whisper ASR for Punctuation Prediction and Topic Modeling of life histories of the Museum of the Person L. Gris R. Marcacini Arnaldo Cândido Júnior Edresson Casanova A. S. Soares S. Aluísio 21 7 0 23 May 2023
Language-universal phonetic encoder for low-resource speech recognition Siyuan Feng Ming Tu Rui Xia Chuanzeng Huang Yuxuan Wang 39 2 0 19 May 2023
TESSP: Text-Enhanced Self-Supervised Speech Pre-training Zhuoyuan Yao Shuo Ren Sanyuan Chen Ziyang Ma Pengcheng Guo Linfu Xie 24 5 0 24 Nov 2022
CTCBERT: Advancing Hidden-unit BERT with CTC Objectives Ruchao Fan Yiming Wang Yashesh Gaur Jinyu Li 41 7 0 16 Oct 2022
Learning Invariant Representation and Risk Minimized for Unsupervised Accent Domain Adaptation Chendong Zhao Jianzong Wang Xiaoyang Qu Haoqian Wang Jing Xiao SSL 38 1 0 15 Oct 2022
CoBERT: Self-Supervised Speech Representation Learning Through Code Representation Learning Chutong Meng Junyi Ao Tom Ko Mingxuan Wang Haizhou Li SSL 47 6 0 08 Oct 2022
Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo Languages Felix Wu Kwangyoun Kim Shinji Watanabe Kyu Jeong Han Ryan T. McDonald Kilian Q. Weinberger Yoav Artzi SyDa 48 37 0 02 May 2022
On-demand compute reduction with stochastic wav2vec 2.0 Apoorv Vyas Wei-Ning Hsu Michael Auli Alexei Baevski 32 13 0 25 Apr 2022
SPIRAL: Self-supervised Perturbation-Invariant Representation Learning for Speech Pre-Training Wenyong Huang Zhenhe Zhang Y. Yeung Xin Jiang Qun Liu 35 23 0 25 Jan 2022
Toward Imagined Speech based Smart Communication System: Potential Applications on Metaverse Conditions Seo-Hyun Lee Young-Eun Lee Seong-Whan Lee 19 25 0 16 Dec 2021
Are E2E ASR models ready for an industrial usage? Valentin Vielzeuf G. Antipov 26 8 0 09 Dec 2021
Towards Building ASR Systems for the Next Billion Users Tahir Javed Sumanth Doddapaneni A. Raman Kaushal Bhogale Gowtham Ramesh Anoop Kunchukuttan Pratyush Kumar Mitesh M. Khapra 44 54 0 06 Nov 2021
Speech recognition for air traffic control via feature learning and end-to-end training Peng Fan Dongyue Guo Yi Lin Bo Yang Jianwei Zhang 15 7 0 04 Nov 2021
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing Sanyuan Chen Chengyi Wang Zhengyang Chen Yu-Huan Wu Shujie Liu ... Yao Qian Jian Wu Micheal Zeng Xiangzhan Yu Furu Wei SSL 121 1,715 0 26 Oct 2021
Word Order Does Not Matter For Speech Recognition Vineel Pratap Qiantong Xu Tatiana Likhomanenko Gabriel Synnaeve R. Collobert 37 4 0 12 Oct 2021
Fine-Grained Classroom Activity Detection from Audio with Neural Networks Eric Slyman Chris Daw Morgan Skrabut A. Usenko Brian Hutchinson HAI 25 5 0 29 Jul 2021
What do End-to-End Speech Models Learn about Speaker, Language and Channel Information? A Layer-wise and Neuron-level Analysis Shammur A. Chowdhury Nadir Durrani Ahmed M. Ali 41 12 0 01 Jul 2021
Comparing CTC and LFMMI for out-of-domain adaptation of wav2vec 2.0 acoustic model Apoorv Vyas S. Madikeri H. Bourlard 19 15 0 06 Apr 2021
Robust wav2vec 2.0: Analyzing Domain Shift in Self-Supervised Pre-Training Wei-Ning Hsu Anuroop Sriram Alexei Baevski Tatiana Likhomanenko Qiantong Xu ... Jacob Kahn Ann Lee R. Collobert Gabriel Synnaeve Michael Auli SSL 25 236 0 02 Apr 2021
General-Purpose Speech Representation Learning through a Self-Supervised Multi-Granularity Framework Yucheng Zhao Dacheng Yin Chong Luo Zhiyuan Zhao Chuanxin Tang Wenjun Zeng Zhengjun Zha SSL 11 6 0 03 Feb 2021
VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation Changhan Wang M. Rivière Ann Lee Anne Wu Chaitanya Talnikar Daniel Haziza Mary Williamson J. Pino Emmanuel Dupoux SSL 25 460 0 02 Jan 2021
Rethinking Evaluation in ASR: Are Our Models Robust Enough? Tatiana Likhomanenko Qiantong Xu Vineel Pratap Paden Tomasello Jacob Kahn Gilad Avidov R. Collobert Gabriel Synnaeve 39 98 0 22 Oct 2020
Differentiable Weighted Finite-State Transducers Awni Y. Hannun Vineel Pratap Jacob Kahn Wei-Ning Hsu 25 29 0 02 Oct 2020
Self-Training for End-to-End Speech Translation J. Pino Qiantong Xu Xutai Ma M. Dousti Yun Tang 33 59 0 03 Jun 2020
Semi-Supervised Speech Recognition via Local Prior Matching Wei-Ning Hsu Ann Lee Gabriel Synnaeve Awni Y. Hannun SSL 27 31 0 24 Feb 2020
End-to-end ASR: from Supervised to Semi-Supervised Learning with Modern Architectures Gabriel Synnaeve Qiantong Xu Jacob Kahn Tatiana Likhomanenko Edouard Grave Vineel Pratap Anuroop Sriram Vitaliy Liptchinsky R. Collobert SSL AI4TS 36 246 0 19 Nov 2019
Effectiveness of self-supervised pre-training for speech recognition Alexei Baevski Michael Auli Abdel-rahman Mohamed SSL 27 147 0 10 Nov 2019
DARTS: Dialectal Arabic Transcription System Sameer Khurana Ahmed M. Ali James R. Glass 14 11 0 26 Sep 2019
Self-Training for End-to-End Speech Recognition Jacob Kahn Ann Lee Awni Y. Hannun SSL 27 231 0 19 Sep 2019
Espresso: A Fast End-to-end Neural Speech Recognition Toolkit Yiming Wang Tongfei Chen Hainan Xu Shuoyang Ding Hang Lv Yiwen Shao Nanyun Peng Lei Xie Shinji Watanabe Sanjeev Khudanpur VLM 27 73 0 18 Sep 2019
Analyzing Phonetic and Graphemic Representations in End-to-End Automatic Speech Recognition Yonatan Belinkov Ahmed M. Ali James R. Glass 28 32 0 09 Jul 2019
CIF: Continuous Integrate-and-Fire for End-to-End Speech Recognition Linhao Dong Bo Xu 27 125 0 27 May 2019