v1v2 (latest)

VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation

2 January 2021

ArXiv (abs)PDF HTML Github (536★)

Papers citing "VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation"

50 / 311 papers shown

Title
MSNER: A Multilingual Speech Dataset for Named Entity Recognition Quentin Meeus Marie-Francine Moens Hugo Van hamme 47 0 0 19 May 2024
SBAAM! Eliminating Transcript Dependency in Automatic Subtitling Marco Gaido Sara Papi Matteo Negri Mauro Cettolo L. Bentivogli 86 1 0 17 May 2024
Sonos Voice Control Bias Assessment Dataset: A Methodology for Demographic Bias Assessment in Voice Assistants Chloe Sekkat Fanny Leroy Salima Mdhaffar Blake Perry Smith Yannick Esteve Joseph Dureau A. Coucke 47 1 0 14 May 2024
Combining X-Vectors and Bayesian Batch Active Learning: Two-Stage Active Learning Pipeline for Speech Recognition O. Kundacina V. Vincan D. Mišković BDL 133 1 0 03 May 2024
Benchmarking Representations for Speech, Music, and Acoustic Events Moreno La Quatra Alkis Koudounas Lorenzo Vaiani Elena Baralis Luca Cagliero Paolo Garza Sabato Marco Siniscalchi 85 13 0 02 May 2024
Simultaneous Interpretation Corpus Construction by Large Language Models in Distant Language Pair Yusuke Sakai Mana Makinae Hidetaka Kamigaito Taro Watanabe 103 5 0 18 Apr 2024
Teaching a Multilingual Large Language Model to Understand Multilingual Speech via Multi-Instructional Training Pavel Denisov Ngoc Thang Vu 82 2 0 16 Apr 2024
Scaling Properties of Speech Language Models Santiago Cuervo R. Marxer 97 11 0 31 Mar 2024
An Empirical Study of Speech Language Models for Prompt-Conditioned Speech Synthesis Yifan Peng Ilia Kulikov Yilin Yang Sravya Popuri Hui Lu Changhan Wang Hongyu Gong 55 1 0 19 Mar 2024
SpeechColab Leaderboard: An Open-Source Platform for Automatic Speech Recognition Evaluation Jiayu Du Jinpeng Li Guoguo Chen Wei-Qiang Zhang ELM 78 3 0 13 Mar 2024
FFSTC: Fongbe to French Speech Translation Corpus D. F. Kponou F. Laleye E. C. Ezin 62 0 0 08 Mar 2024
Speech Robust Bench: A Robustness Benchmark For Speech Recognition Muhammad A. Shah David Solans Noguero Mikko A. Heikkilä Nicolas Kourtellis 54 6 0 08 Mar 2024
IndicVoices: Towards building an Inclusive Multilingual Speech Dataset for Indian Languages Tahir Javed J. Nawale E. George Sakshi Joshi Kaushal Bhogale ... M. ManickamK C. V. Vaijayanthi Krishnan Srinivasa Raghavan Karunganni Pratyush Kumar Mitesh M Khapra 94 22 0 04 Mar 2024
Extending Multilingual Speech Synthesis to 100+ Languages without Transcribed Data Takaaki Saeki Gary Wang Nobuyuki Morioka Isaac Elias Kyle Kastner ... Andrew Rosenberg Bhuvana Ramabhadran Heiga Zen Francoise Beaufays Hadar Shemtov 102 14 0 29 Feb 2024
Twists, Humps, and Pebbles: Multilingual Speech Recognition Models Exhibit Gender Performance Gaps Giuseppe Attanasio Beatrice Savoldi Dennis Fucci Dirk Hovy 85 9 0 28 Feb 2024
Direct Punjabi to English speech translation using discrete units Prabhjot Kaur L. A. M. Bush Weisong Shi 60 0 0 25 Feb 2024
Efficient data selection employing Semantic Similarity-based Graph Structures for model training Roxana Petcu Subhadeep Maji 28 1 0 22 Feb 2024
The Effect of Batch Size on Contrastive Self-Supervised Speech Representation Learning Nik Vaessen David A. van Leeuwen 94 3 0 21 Feb 2024
OWSM-CTC: An Open Encoder-Only Speech Foundation Model for Speech Recognition, Translation, and Language Identification Yifan Peng Yui Sudo Muhammad Shakeel Shinji Watanabe VLM 126 25 0 20 Feb 2024
Speech Translation with Speech Foundation Models and Large Language Models: What is There and What is Missing? Marco Gaido Sara Papi Matteo Negri L. Bentivogli 133 18 0 19 Feb 2024
An Embarrassingly Simple Approach for LLM with Strong ASR Capacity Ziyang Ma Guanrou Yang Yifan Yang Zhifu Gao Jiaming Wang ... Fan Yu Qian Chen Siqi Zheng Shiliang Zhang Xie Chen AuLLM 96 60 0 13 Feb 2024
SpiRit-LM: Interleaved Spoken and Written Language Model Tu Nguyen Benjamin Muller Bokai Yu Marta R. Costa-jussá Maha Elbayad ... Itai Gat Gabriel Synnaeve Juan Pino Benoît Sagot Emmanuel Dupoux AuLLM VLM 99 53 0 08 Feb 2024
Natural language guidance of high-fidelity text-to-speech with synthetic annotations Daniel Lyth Simon King 98 49 0 02 Feb 2024
Exploring the limits of decoder-only models trained on public speech recognition corpora Ankit Gupta G. Saon Brian Kingsbury OffRL 59 5 0 31 Jan 2024
Proactive Detection of Voice Cloning with Localized Watermarking Robin San Roman Pierre Fernandez Alexandre Défossez Teddy Furon Tuan Tran Hady ElSahar 146 54 0 30 Jan 2024
OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer Yifan Peng Jinchuan Tian William Chen Siddhant Arora Brian Yan ... Kwanghee Choi Jiatong Shi Xuankai Chang Jee-weon Jung Shinji Watanabe VLM OSLM 103 54 0 30 Jan 2024
UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit Normalization Yuejiao Wang Xixin Wu Disong Wang Lingwei Meng Helen M. Meng 57 7 0 26 Jan 2024
Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition Vahid Noroozi Somshubra Majumdar Ankur Kumar Jagadeesh Balam Boris Ginsburg 82 14 0 27 Dec 2023
Fine-Tuned Self-Supervised Speech Representations for Language Diarization in Multilingual Code-Switched Speech Geoffrey T. Frost Emily Morris Joshua Jansen van Vüren T. Niesler 60 2 0 15 Dec 2023
AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation J. Choi Se Jin Park Minsu Kim Y. Ro 112 14 0 05 Dec 2023
End-to-End Speech-to-Text Translation: A Survey Nivedita Sethiya Chandresh Kumar Maurya 110 8 0 02 Dec 2023
Retrieve and Copy: Scaling ASR Personalization to Large Catalogs Sai Muralidhar Jayanthi Devang Kulshreshtha Saket Dingliwal S. Ronanki S. Bodapati 65 7 0 14 Nov 2023
Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling Sanchit Gandhi Patrick von Platen Alexander M. Rush VLM 100 64 0 01 Nov 2023
Pre-trained Speech Processing Models Contain Human-Like Biases that Propagate to Speech Emotion Recognition Isaac Slaughter Craig Greenberg Reva Schwartz Aylin Caliskan 95 5 0 29 Oct 2023
DiffS2UT: A Semantic Preserving Diffusion Model for Textless Direct Speech-to-Speech Translation Yongxin Zhu Zhujin Gao Xinyuan Zhou Zhongyi Ye Linli Xu 75 2 0 26 Oct 2023
The IMS Toucan System for the Blizzard Challenge 2023 Florian Lux Julia Koch Sarina Meyer Thomas Bott Nadja Schauffler Pavel Denisov Antje Schweitzer Ngoc Thang Vu 65 6 0 26 Oct 2023
CL-MASR: A Continual Learning Benchmark for Multilingual ASR Luca Della Libera Pooneh Mousavi Salah Zaiem Cem Subakan Mirco Ravanelli AuLLM CLL 98 13 0 25 Oct 2023
HANSEN: Human and AI Spoken Text Benchmark for Authorship Analysis Nafis Irtiza Tripto Adaku Uchendu Thai V. Le Mattia Setzu F. Giannotti Dongwon Lee DeLMO 58 7 0 25 Oct 2023
Toward Joint Language Modeling for Speech Units and Text Ju-Chieh Chou Chung-Ming Chien Wei-Ning Hsu Karen Livescu Arun Babu Alexis Conneau Alexei Baevski Michael Auli VLM 90 20 0 12 Oct 2023
Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation over More Languages and Beyond Jiatong Shi William Chen Dan Berrebbi Hsiu-Hsuan Wang Wei-Ping Huang ... Yuxun Tang Shang-Wen Li Abdelrahman Mohamed Hung-yi Lee Shinji Watanabe LRM ELM 130 16 0 09 Oct 2023
Multi-resolution HuBERT: Multi-resolution Speech Self-Supervised Learning with Masked Unit Prediction Jiatong Shi Hirofumi Inaguma Xutai Ma Ilia Kulikov Anna Y. Sun 115 27 0 04 Oct 2023
SLM: Bridge the thin gap between speech and text foundation models Mingqiu Wang Wei Han Izhak Shafran Zelin Wu Chung-Cheng Chiu ... Zhong Meng Golan Pundak Nikhil Siddhartha J. Schalkwyk Yonghui Wu AuLLM 117 58 0 30 Sep 2023
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models Cheng Chen Yuchen Hu Chao-Han Huck Yang Sabato Marco Siniscalchi Pin-Yu Chen Eng Siong Chng 99 48 0 27 Sep 2023
Generative Speech Recognition Error Correction with Large Language Models and Task-Activating Prompting Chao-Han Huck Yang Yile Gu Yi-Chieh Liu Shalini Ghosh I. Bulyko A. Stolcke KELM LRM 120 52 0 27 Sep 2023
Joint Prediction and Denoising for Large-scale Multilingual Self-supervised Learning William Chen Jiatong Shi Brian Yan Dan Berrebbi Wangyou Zhang Yifan Peng Xuankai Chang Soumi Maiti Shinji Watanabe 83 10 0 26 Sep 2023
Updated Corpora and Benchmarks for Long-Form Speech Recognition Jennifer Drexler Fox Desh Raj Natalie Delworth Quinn Mcnamara Corey Miller Miguel Jetté AuLLM 70 8 0 26 Sep 2023
Reproducing Whisper-Style Training Using an Open-Source Toolkit and Publicly Available Data Yifan Peng Jinchuan Tian Brian Yan Dan Berrebbi Xuankai Chang ... Yui Sudo Muhammad Shakeel Jee-weon Jung Soumi Maiti Shinji Watanabe VLM 138 41 0 25 Sep 2023
Discrete Audio Representation as an Alternative to Mel-Spectrograms for Speaker and Speech Recognition Krishna C. Puvvada Nithin Rao Koluguri Kunal Dhawan Jagadeesh Balam Boris Ginsburg 78 17 0 19 Sep 2023
Investigating End-to-End ASR Architectures for Long Form Audio Transcription Nithin Rao Koluguri Samuel Kriman Georgy Zelenfroind Somshubra Majumdar Dima Rekesh Vahid Noroozi Jagadeesh Balam Boris Ginsburg AuLLM 79 9 0 18 Sep 2023
Training dynamic models using early exits for automatic speech recognition on resource-constrained devices George August Wright Umberto Cappellazzo Salah Zaiem Desh Raj Lucas Ondel Yang Daniele Falavigna Mohamed Nabih Ali Alessio Brutti 59 2 0 18 Sep 2023