MLS: A Large-Scale Multilingual Dataset for Speech Research

7 December 2020

Papers citing "MLS: A Large-Scale Multilingual Dataset for Speech Research"

50 / 100 papers shown

Title
Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge Minsu Kim Jeong Hun Yeo J. Choi Y. Ro 34 16 0 18 Aug 2023
An objective evaluation of Hearing Aids and DNN-based speech enhancement in complex acoustic scenes Enric Gusó Joanna Luberadzka Martí Baig Umut Sayin Saraç Xavier Serra 18 2 0 24 Jul 2023
Automatic Tuning of Loss Trade-offs without Hyper-parameter Search in End-to-End Zero-Shot Speech Synthesis Seong-Hyun Park Bohyung Kim Tae-Hyun Oh 50 1 0 26 May 2023
Textually Pretrained Speech Language Models Michael Hassid Tal Remez Tu Nguyen Itai Gat Alexis Conneau ... Alexandre Défossez Gabriel Synnaeve Emmanuel Dupoux Roy Schwartz Yossi Adi VLM SyDa 44 54 0 22 May 2023
Comparison of Multilingual Self-Supervised and Weakly-Supervised Speech Pre-Training for Adaptation to Unseen Languages Andrew Rouditchenko Sameer Khurana Samuel Thomas Rogerio Feris Leonid Karlinsky Hilde Kuehne David Harwath Brian Kingsbury James R. Glass VLM 39 22 0 21 May 2023
Language-universal phonetic encoder for low-resource speech recognition Siyuan Feng Ming Tu Rui Xia Chuanzeng Huang Yuxuan Wang 39 2 0 19 May 2023
Language-Universal Phonetic Representation in Multilingual Speech Pretraining for Low-Resource Speech Recognition Siyuan Feng Ming Tu Rui Xia Chuanzeng Huang Yuxuan Wang 35 5 0 19 May 2023
ML-SUPERB: Multilingual Speech Universal PERformance Benchmark Jiatong Shi Dan Berrebbi William Chen Ho-Lam Chung En-Pei Hu ... Xuankai Chang Shang-Wen Li Abdel-rahman Mohamed Hung-yi Lee Shinji Watanabe ELM 58 59 0 18 May 2023
Exploration of Language Dependency for Japanese Self-Supervised Speech Representation Models Takanori Ashihara Takafumi Moriya Kohei Matsuura Tomohiro Tanaka 33 3 0 09 May 2023
Fast Conformer with Linearly Scalable Attention for Efficient Speech Recognition Dima Rekesh Nithin Rao Koluguri Samuel Kriman Somshubra Majumdar Vahid Noroozi ... Oleksii Hrinchuk Krishna Puvvada Ankur Kumar Jagadeesh Balam Boris Ginsburg 56 84 0 08 May 2023
Efficient Sequence Transduction by Jointly Predicting Tokens and Durations Hainan Xu Fei Jia Somshubra Majumdar Hengguan Huang Shinji Watanabe Boris Ginsburg 27 19 0 13 Apr 2023
Enhancing Unsupervised Speech Recognition with Diffusion GANs Xianchao Wu DiffM 11 2 0 23 Mar 2023
Supervised Acoustic Embeddings And Their Transferability Across Languages Sreepratha Ram Hanan Aldarmaki SSL 24 3 0 03 Jan 2023
ReVISE: Self-Supervised Speech Resynthesis with Visual Input for Universal and Generalized Speech Enhancement Wei-Ning Hsu Tal Remez Bowen Shi Jacob Donley Yossi Adi DiffM 27 12 0 21 Dec 2022
Ring That Bell: A Corpus and Method for Multimodal Metaphor Detection in Videos Khalid Alnajjar Mika Hämäläinen Shuo Zhang 34 7 0 15 Dec 2022
EURO: ESPnet Unsupervised ASR Open-source Toolkit Dongji Gao Jiatong Shi Shun-Po Chuang Leibny Paola García-Perera Hung-yi Lee Shinji Watanabe Sanjeev Khudanpur 27 8 0 30 Nov 2022
Casual Conversations v2: Designing a large consent-driven dataset to measure algorithmic bias and robustness C. Hazirbas Yejin Bang Tiezheng Yu Parisa Assar Bilal Porgali ... Jacqueline Pan Emily McReynolds Miranda Bogen Pascale Fung Cristian Canton Ferrer 37 8 0 10 Nov 2022
Massively Multilingual ASR on 70 Languages: Tokenization, Architecture, and Generalization Capabilities Andros Tjandra Nayan Singhal David C. Zhang Ozlem Kalinli Abdel-rahman Mohamed Duc Le M. Seltzer 37 12 0 10 Nov 2022
Multi-blank Transducers for Speech Recognition Hainan Xu Fei Jia Somshubra Majumdar Shinji Watanabe Boris Ginsburg 33 11 0 04 Nov 2022
Maestro-U: Leveraging joint speech-text representation learning for zero supervised speech ASR Zhehuai Chen Ankur Bapna Andrew Rosenberg Yu Zhang Bhuvana Ramabhadran Pedro J. Moreno Nanxin Chen 51 17 0 18 Oct 2022
On the Utility of Self-supervised Models for Prosody-related Tasks Guan-Ting Lin Chiyu Feng Wei-Ping Huang Yuan Tseng Tzu-Han Lin Chen An Li Hung-yi Lee Nigel G. Ward 23 48 0 13 Oct 2022
Fine-tuning Wav2vec for Vocal-burst Emotion Recognition Dang-Khanh Nguyen Sudarshan Pant Ngoc-Huynh Ho Gueesang Lee Soo-Huyng Kim Hyung-Jeong Yang 24 3 0 01 Oct 2022
Bangla-Wave: Improving Bangla Automatic Speech Recognition Utilizing N-gram Language Models Mohammed Rakib Md. Ismail Hossain Nabeel Mohammed Fuad Rahman VLM 22 7 0 13 Sep 2022
Applying wav2vec2 for Speech Recognition on Bengali Common Voices Dataset Haz Sameen Shahgir Khondker Salman Sayeed Tanjeem Azwad Zaman 37 9 0 11 Sep 2022
Domain Specific Wav2vec 2.0 Fine-tuning For The SE&R 2022 Challenge A. I. S. Ferreira Gustavo dos Reis Oliveira 27 3 0 29 Jul 2022
Self-Supervised Speech Representation Learning: A Review Abdel-rahman Mohamed Hung-yi Lee Lasse Borgholt Jakob Drachmann Havtorn Joakim Edin ... Shang-Wen Li Karen Livescu Lars Maaløe Tara N. Sainath Shinji Watanabe SSL AI4TS 137 352 0 21 May 2022
Quantifying Language Variation Acoustically with Few Resources Martijn Bartelds Martijn B. Wieling 27 11 0 05 May 2022
ASR in German: A Detailed Error Analysis John M. Wirth René Peinl 26 5 0 12 Apr 2022
Transducer-based language embedding for spoken language identification Peng Shen Xugang Lu Hisashi Kawai 56 6 0 08 Apr 2022
Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data Augmentation Sravya Popuri Peng-Jen Chen Changhan Wang J. Pino Yossi Adi Jiatao Gu Wei-Ning Hsu Ann Lee 28 56 0 06 Apr 2022
End-to-End Multi-speaker ASR with Independent Vector Analysis Robin Scheibler Wangyou Zhang Xuankai Chang Shinji Watanabe Y. Qian 24 2 0 01 Apr 2022
Leveraging unsupervised and weakly-supervised data to improve direct speech-to-speech translation Ye Jia Yifan Ding Ankur Bapna Colin Cherry Yu Zhang Alexis Conneau Nobuyuki Morioka 47 20 0 24 Mar 2022
Visual Speech Recognition for Multiple Languages in the Wild Pingchuan Ma Stavros Petridis M. Pantic VLM 130 145 0 26 Feb 2022
Automatic speaker verification spoofing and deepfake detection using wav2vec 2.0 and data augmentation Hemlata Tak Massimiliano Todisco Xin Wang Jee-weon Jung Junichi Yamagishi Nicholas W. D. Evans 34 154 0 24 Feb 2022
mSLAM: Massively multilingual joint pre-training for speech and text Ankur Bapna Colin Cherry Yu Zhang Ye Jia Melvin Johnson Yong Cheng Simran Khanuja Jason Riesa Alexis Conneau VLM 30 111 0 03 Feb 2022
The People's Speech: A Large-Scale Diverse English Speech Recognition Dataset for Commercial Usage Daniel Galvez G. Diamos Juan Ciro Juan Felipe Cerón Keith Achorn Anjali Gopi David Kanter Maximilian Lam Mark Mazumder Vijay Janapa Reddi 24 95 0 17 Nov 2021
XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale Arun Babu Changhan Wang Andros Tjandra Kushal Lakhotia Qiantong Xu ... Yatharth Saraf J. Pino Alexei Baevski Alexis Conneau Michael Auli SSL 32 663 0 17 Nov 2021
Joint Unsupervised and Supervised Training for Multilingual ASR Junwen Bai Bo-wen Li Yu Zhang Ankur Bapna Nikhil Siddhartha K. Sim Tara N. Sainath 32 58 0 15 Nov 2021
Lhotse: a speech data representation library for the modern deep learning ecosystem Willem Hagemann Daniel Povey Jan "Yenda" Trmal Sanjeev Khudanpur AuLLM AI4TS 33 33 0 25 Oct 2021
Advancing the dimensionality reduction of speaker embeddings for speaker diarisation: disentangling noise and informing speech activity You Jin Kim Hee-Soo Heo Jee-weon Jung Youngki Kwon Bong-Jin Lee Joon Son Chung 32 3 0 07 Oct 2021
Comparison of Self-Supervised Speech Pre-Training Methods on Flemish Dutch Jakob Poncelet Hugo Van hamme SSL 28 1 0 29 Sep 2021
Simple and Effective Zero-shot Cross-lingual Phoneme Recognition Qiantong Xu Alexei Baevski Michael Auli VLM 29 78 0 23 Sep 2021
A Survey on Neural Speech Synthesis Xu Tan Tao Qin Frank Soong Tie-Yan Liu AI4TS 18 352 0 29 Jun 2021
Scaling End-to-End Models for Large-Scale Multilingual ASR Bo-wen Li Ruoming Pang Tara N. Sainath Anmol Gulati Yu Zhang James Qin Parisa Haghani Yifan Jiang Min Ma Junwen Bai CLL 34 76 0 30 Apr 2021
LeBenchmark: A Reproducible Framework for Assessing Self-Supervised Representation Learning from Speech Solène Evain H. Nguyen Hang Le Marcely Zanon Boito Salima Mdhaffar ... François Portet Solange Rossato F. Ringeval D. Schwab Laurent Besacier SSL 33 70 0 23 Apr 2021
Crossing the Conversational Chasm: A Primer on Natural Language Processing for Multilingual Task-Oriented Dialogue Systems E. Razumovskaia Goran Glavavs Olga Majewska Edoardo Ponti Anna Korhonen Ivan Vulić 33 32 0 17 Apr 2021
HMM-Free Encoder Pre-Training for Streaming RNN Transducer Lu Huang J. Sun Yu Tang Junfeng Hou Jinkun Chen Jun Zhang Zejun Ma 25 3 0 02 Apr 2021
VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation Changhan Wang M. Rivière Ann Lee Anne Wu Chaitanya Talnikar Daniel Haziza Mary Williamson J. Pino Emmanuel Dupoux SSL 25 462 0 02 Jan 2021
Unsupervised Cross-lingual Representation Learning for Speech Recognition Alexis Conneau Alexei Baevski R. Collobert Abdel-rahman Mohamed Michael Auli SSL 70 754 0 24 Jun 2020
Scaling Up Online Speech Recognition Using ConvNets Vineel Pratap Qiantong Xu Jacob Kahn Gilad Avidov Tatiana Likhomanenko Awni Y. Hannun Vitaliy Liptchinsky Gabriel Synnaeve R. Collobert 154 38 0 27 Jan 2020