Common Voice: A Massively-Multilingual Speech Corpus

13 December 2019

Papers citing "Common Voice: A Massively-Multilingual Speech Corpus"

50 / 315 papers shown

Title
Learning Nigerian accent embeddings from speech: preliminary results based on SautiDB-Naija corpus Tejumade Afonja Oladimeji Mudele Iroro Orife Kenechi Dukor Lawrence Francis Duru Goodness Oluwafemi Azeez Ademola Malomo Clinton Mbataku 8 3 0 12 Dec 2021
The People's Speech: A Large-Scale Diverse English Speech Recognition Dataset for Commercial Usage Daniel Galvez G. Diamos Juan Ciro Juan Felipe Cerón Keith Achorn Anjali Gopi David Kanter Maximilian Lam Mark Mazumder Vijay Janapa Reddi 24 95 0 17 Nov 2021
XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale Arun Babu Changhan Wang Andros Tjandra Kushal Lakhotia Qiantong Xu ... Yatharth Saraf J. Pino Alexei Baevski Alexis Conneau Michael Auli SSL 32 663 0 17 Nov 2021
Investigating self-supervised front ends for speech spoofing countermeasures Xin Wang Junichi Yamagishi AAML 19 123 0 15 Nov 2021
WaveFake: A Data Set to Facilitate Audio Deepfake Detection Joel Frank Lea Schonherr DiffM 129 125 0 04 Nov 2021
Synthesizing Speech from Intracranial Depth Electrodes using an Encoder-Decoder Framework Jonas Köhler Maarten C. Ottenhoff Sophocles Goulis Miguel Angrick A. Colon Louis Wagner S. Tousseyn P. Kubben Christian Herff 30 26 0 02 Nov 2021
SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text Joint Pre-Training Ankur Bapna Yu-An Chung Na Wu Anmol Gulati Ye Jia J. Clark Melvin Johnson Jason Riesa Alexis Conneau Yu Zhang VLM 64 94 0 20 Oct 2021
From Start to Finish: Latency Reduction Strategies for Incremental Speech Synthesis in Simultaneous Speech-to-Speech Translation Danni Liu Changhan Wang Hongyu Gong Xutai Ma Yun Tang J. Pino 25 4 0 15 Oct 2021
Scribosermo: Fast Speech-to-Text models for German and other Languages Daniel Bermuth Alexander Poeppel W. Reif 29 9 0 15 Oct 2021
Continual learning using lattice-free MMI for speech recognition Hossein Hadian Arsenii Gorin CLL 18 1 0 13 Oct 2021
Wav2vec-S: Semi-Supervised Pre-Training for Low-Resource ASR Hanjing Zhu Li Wang Jindong Wang Gaofeng Cheng Pengyuan Zhang Yonghong Yan SSL VLM 24 9 0 09 Oct 2021
SpliceOut: A Simple and Efficient Audio Augmentation Method Arjit Jain Pranay Reddy Samala Deepak Mittal P. Jyothi M. Singh 28 10 0 30 Sep 2021
Federated Learning in ASR: Not as Easy as You Think Wentao Yu J. Freiwald Soren Tewes F. Huennemeyer D. Kolossa FedML 27 17 0 30 Sep 2021
Comparison of Self-Supervised Speech Pre-Training Methods on Flemish Dutch Jakob Poncelet Hugo Van hamme SSL 28 1 0 29 Sep 2021
BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition Yu Zhang Daniel S. Park Wei Han James Qin Anmol Gulati ... Zhifeng Chen Quoc V. Le Chung-Cheng Chiu Ruoming Pang Yonghui Wu SSL 27 175 0 27 Sep 2021
Simple and Effective Zero-shot Cross-lingual Phoneme Recognition Qiantong Xu Alexei Baevski Michael Auli VLM 29 78 0 23 Sep 2021
Live Speech Portraits: Real-Time Photorealistic Talking-Head Animation Yuanxun Lu Jinxiang Chai Xun Cao 29 82 0 22 Sep 2021
Residual Adapters for Parameter-Efficient ASR Adaptation to Atypical and Accented Speech Katrin Tomanek Vicky Zayats Dirk Padfield K. Vaillancourt Fadi Biadsy 59 57 0 14 Sep 2021
Scalable Data Annotation Pipeline for High-Quality Large Speech Datasets Development Mingkuan Liu Chi Zhang Hua Xing C. Feng Mon-Chu Chen Judith Bishop Grace Ngapo 30 3 0 01 Sep 2021
Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring Yaman Kumar Singla Avykat Gupta Shaurya Bagga Changyou Chen Balaji Krishnamurthy R. Shah 32 12 0 30 Aug 2021
Automatic Speech Recognition And Limited Vocabulary: A Survey J. L. E. K. Fendji D. Tala B. Yenke M. Atemkeng 23 3 0 23 Aug 2021
A Study of Multilingual End-to-End Speech Recognition for Kazakh, Russian, and English Saida Mussakhojayeva Yerbolat Khassanov H. A. Varol 22 17 0 03 Aug 2021
Can You Hear It? Backdoor Attacks via Ultrasonic Triggers Stefanos Koffas Jing Xu Mauro Conti S. Picek AAML 22 66 0 30 Jul 2021
An Adapter Based Pre-Training for Efficient and Scalable Self-Supervised Speech Representation Learning Samuel Kessler Bethan Thomas S. Karout SSL 27 29 0 26 Jul 2021
Translatotron 2: High-quality direct speech-to-speech translation with voice preservation Ye Jia Michelle Tadmor Ramanovich Tal Remez Roi Pomerantz 26 67 0 19 Jul 2021
The NiuTrans End-to-End Speech Translation System for IWSLT 2021 Offline Task Chen Xu Xiaoqian Liu Xiaowen Liu Laohu Wang Canan Huang Tong Xiao Jingbo Zhu 34 5 0 06 Jul 2021
Instant One-Shot Word-Learning for Context-Specific Neural Sequence-to-Sequence Speech Recognition Christian Huber Juan Hussain Sebastian Stüker A. Waibel 29 24 0 05 Jul 2021
Supervised Contrastive Learning for Accented Speech Recognition Tao Han Hantao Huang Ziang Yang Wei Han 49 15 0 02 Jul 2021
What do End-to-End Speech Models Learn about Speaker, Language and Channel Information? A Layer-wise and Neuron-level Analysis Shammur A. Chowdhury Nadir Durrani Ahmed M. Ali 44 12 0 01 Jul 2021
A Survey on Neural Speech Synthesis Xu Tan Tao Qin Frank Soong Tie-Yan Liu AI4TS 18 352 0 29 Jun 2021
What Can Knowledge Bring to Machine Learning? -- A Survey of Low-shot Learning for Structured Data Yang Hu Adriane P. Chapman Guihua Wen Dame Wendy Hall 42 24 0 11 Jun 2021
Signal Transformer: Complex-valued Attention and Meta-Learning for Signal Recognition Yihong Dong Ying Peng Muqiao Yang Songtao Lu Qingjiang Shi 42 9 0 05 Jun 2021
Learning Robust Latent Representations for Controllable Speech Synthesis Shakti Kumar Jithin Pradeep Hussain Zaidi DRL 41 6 0 10 May 2021
Efficient Weight factorization for Multilingual Speech Recognition Ngoc-Quan Pham Tuan-Nam Nguyen S. Stueker A. Waibel 43 19 0 07 May 2021
End-to-End Speech Recognition from Federated Acoustic Models Yan Gao Titouan Parcollet Salah Zaiem Javier Fernandez-Marques Pedro Porto Buarque de Gusmão Daniel J. Beutel Nicholas D. Lane 28 43 0 29 Apr 2021
LeBenchmark: A Reproducible Framework for Assessing Self-Supervised Representation Learning from Speech Solène Evain H. Nguyen Hang Le Marcely Zanon Boito Salima Mdhaffar ... François Portet Solange Rossato F. Ringeval D. Schwab Laurent Besacier SSL 33 70 0 23 Apr 2021
Restoring degraded speech via a modified diffusion model Jianwei Zhang Suren Jayasuriya Visar Berisha DiffM 20 19 0 22 Apr 2021
On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion Recognition: An Update for the Deep Learning Era Shahin Amiriparian Artem Sokolov Ilhan Aslan Lukas Christ Maurice Gerczuk ... M. Milling Sandra Ottl Ilya Poduremennykh E. Shuranov Björn W. Schuller 33 17 0 20 Apr 2021
Conditional independence for pretext task selection in Self-supervised speech representation learning Salah Zaiem Titouan Parcollet S. Essid SSL 6 4 0 15 Apr 2021
Timers and Such: A Practical Benchmark for Spoken Language Understanding with Numbers Loren Lugosch Piyush Papreja Mirco Ravanelli A. Heba Titouan Parcollet 27 13 0 04 Apr 2021
Robust wav2vec 2.0: Analyzing Domain Shift in Self-Supervised Pre-Training Wei-Ning Hsu Anuroop Sriram Alexei Baevski Tatiana Likhomanenko Qiantong Xu ... Jacob Kahn Ann Lee R. Collobert Gabriel Synnaeve Michael Auli SSL 25 237 0 02 Apr 2021
Configurable Privacy-Preserving Automatic Speech Recognition Ranya Aloufi Hamed Haddadi David E. Boyle 30 10 0 01 Apr 2021
Generative Speech Coding with Predictive Variance Regularization W. Kleijn Andrew Storus Michael Chinen Tom Denton Felicia S. C. Lim Alejandro Luebs Jan Skoglund Hengchin Yeh 26 67 0 18 Feb 2021
NoiseQA: Challenge Set Evaluation for User-Centric Question Answering Abhilasha Ravichander Siddharth Dalmia Maria Ryskina Florian Metze Eduard H. Hovy A. Black ELM 29 32 0 16 Feb 2021
UniSpeech: Unified Speech Representation Learning with Labeled and Unlabeled Data Chengyi Wang Yu-Huan Wu Yao Qian K. Kumatani Shujie Liu Furu Wei Michael Zeng Xuedong Huang OT SSL 38 112 0 19 Jan 2021
VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation Changhan Wang M. Rivière Ann Lee Anne Wu Chaitanya Talnikar Daniel Haziza Mary Williamson J. Pino Emmanuel Dupoux SSL 25 462 0 02 Jan 2021
What all do audio transformer models hear? Probing Acoustic Representations for Language Delivery and its Structure Jui Shah Yaman Kumar Singla Changyou Chen R. Shah 27 81 0 02 Jan 2021
WILDS: A Benchmark of in-the-Wild Distribution Shifts Pang Wei Koh Shiori Sagawa Henrik Marklund Sang Michael Xie Marvin Zhang ... A. Kundaje Emma Pierson Sergey Levine Chelsea Finn Percy Liang OOD 103 1,383 0 14 Dec 2020
Data Appraisal Without Data Sharing Mimee Xu L. V. D. van der Maaten Awni Y. Hannun TDI 39 6 0 11 Dec 2020
Unsupervised Domain Adaptation for Speech Recognition via Uncertainty Driven Self-Training Sameer Khurana Niko Moritz Takaaki Hori Jonathan Le Roux 24 54 0 26 Nov 2020