Training Neural Speech Recognition Systems with Synthetic Speech Augmentation

2 November 2018

Boris Ginsburg

Papers citing "Training Neural Speech Recognition Systems with Synthetic Speech Augmentation"

31 / 31 papers shown

Title
Beyond Oversmoothing: Evaluating DDPM and MSE for Scalable Speech Synthesis in ASR Christoph Minixhofer Ondˇrej Klejch Peter Bell 80 0 0 16 Oct 2024
Initial Decoding with Minimally Augmented Language Model for Improved Lattice Rescoring in Low Resource ASR Savitha Murthy D. Sitaram 49 0 0 16 Mar 2024
Dialect Adaptation and Data Augmentation for Low-Resource ASR: TalTech Systems for the MADASR 2023 Challenge Tanel Alumäe Jiaming Kong Daniil Robnikov 29 2 0 26 Oct 2023
Accurate synthesis of Dysarthric Speech for ASR data augmentation M. Soleymanpour Michael T. Johnson Rahim Soleymanpour J. Berry 81 3 0 16 Aug 2023
Two-Stage Voice Anonymization for Enhanced Privacy F. Nespoli Daniel Barreda Joerg Bitzer Patrick A. Naylor 58 3 0 28 Jun 2023
Unlocking Foundation Models for Privacy-Enhancing Speech Understanding: An Early Study on Low Resource Speech Training Leveraging Label-guided Synthetic Speech Content Tiantian Feng Digbalay Bose Xuan Shi Shrikanth Narayanan 60 1 0 13 Jun 2023
GPT-FL: Generative Pre-trained Model-Assisted Federated Learning Tuo Zhang Tiantian Feng Samiul Alam Dimitrios Dimitriadis Sunwoo Lee Mi Zhang Shrikanth S. Narayanan Salman Avestimehr FedML 77 29 0 03 Jun 2023
StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners Yonglong Tian Lijie Fan Phillip Isola Huiwen Chang Dilip Krishnan VLM DiffM 145 153 0 01 Jun 2023
OLISIA: a Cascade System for Spoken Dialogue State Tracking Léo Jacqmin Lucas Druart Yannick Esteve Benoit Favre L. Rojas-Barahona Valentin Vielzeuf 87 3 0 20 Apr 2023
AraSpot: Arabic Spoken Command Spotting Mahmoud Salhab H. Harmanani 56 0 0 29 Mar 2023
Text-only domain adaptation for end-to-end ASR using integrated text-to-mel-spectrogram generator Vladimir Bataev Roman Korostik Evgeny Shabalin Vitaly Lavrukhin Boris Ginsburg VLM 78 15 0 27 Feb 2023
MAC: A unified framework boosting low resource automatic speech recognition Zeping Min Qian Ge Zhong Li E. Weinan 116 1 0 05 Feb 2023
SpeeChain: A Speech Toolkit for Large-Scale Machine Speech Chain Heli Qi Sashi Novitasari Andros Tjandra S. Sakti Satoshi Nakamura 75 3 0 08 Jan 2023
Evaluating and reducing the distance between synthetic and real speech distributions Christoph Minixhofer Ondˇrej Klejch P. Bell 82 8 0 29 Nov 2022
Exploring the Impact of Noise and Degradations on Heart Sound Classification Models Davoud Shariat Panah Andrew Hines Susan Mckeever 10 7 0 14 Nov 2022
A Policy-based Approach to the SpecAugment Method for Low Resource E2E ASR Rui Li Guodong Ma Dexin Zhao Ranran Zeng Xiaoyu Li Haolin Huang 69 2 0 16 Oct 2022
When Is TTS Augmentation Through a Pivot Language Useful? Nathaniel R. Robinson Perez Ogayo Swetha Gangu David R. Mortensen Shinji Watanabe 77 10 0 20 Jul 2022
End-to-End Spoken Language Understanding: Performance analyses of a voice command task in a low resource setting Thierry Desot François Portet Michel Vacher 54 12 0 17 Jul 2022
Self-Supervised Speech Representation Learning: A Review Abdel-rahman Mohamed Hung-yi Lee Lasse Borgholt Jakob Drachmann Havtorn Joakim Edin ... Shang-Wen Li Karen Livescu Lars Maaløe Tara N. Sainath Shinji Watanabe SSL AI4TS 285 368 0 21 May 2022
ASR data augmentation in low-resource settings using cross-lingual multi-speaker TTS and cross-lingual voice conversion Edresson Casanova C. Shulby Alexander Korolev Arnaldo Cândido Júnior A. S. Soares S. Aluísio M. Ponti 117 14 0 29 Mar 2022
Differentially Private Speaker Anonymization Ali Shahin Shamsabadi B. M. L. Srivastava A. Bellet Nathalie Vauquier Emmanuel Vincent Mohamed Maouche Marc Tommasi Nicolas Papernot MIACV 145 35 0 23 Feb 2022
Synthesizing Dysarthric Speech Using Multi-talker TTS for Dysarthric Speech Recognition M. Soleymanpour Michael T. Johnson Rahim Soleymanpour J. Berry 82 30 0 27 Jan 2022
Data Incubation -- Synthesizing Missing Data for Handwriting Recognition Jen-Hao Rick Chang Martin Bresler Youssouf Chherawala Adrien Delaye Thomas Deselaers Ryan S. Dixon Oncel Tuzel SyDa 60 2 0 13 Oct 2021
Injecting Text in Self-Supervised Speech Pretraining Zhehuai Chen Yu Zhang Andrew Rosenberg Bhuvana Ramabhadran Gary Wang Pedro J. Moreno SSL 88 36 0 27 Aug 2021
Using Synthetic Audio to Improve The Recognition of Out-Of-Vocabulary Words in End-To-End ASR Systems Xianrui Zheng Yulan Liu Deniz Gunceler D. Willett 129 79 0 23 Nov 2020
You Do Not Need More Data: Improving End-To-End Speech Recognition by Text-To-Speech Data Augmentation A. Laptev Roman Korostik A. Svischev A. Andrusenko Ivan Medennikov S. Rybin 81 61 0 14 May 2020
Generating diverse and natural text-to-speech samples using a quantized fine-grained VAE and auto-regressive prosody prior Guangzhi Sun Yu Zhang Ron J. Weiss Yuan Cao Heiga Zen Andrew Rosenberg Bhuvana Ramabhadran Yonghui Wu DiffM 98 93 0 06 Feb 2020
Training Keyword Spotters with Limited and Synthesized Speech Data James Lin Kevin Kilgour Dominik Roblek Matthew Sharifi 63 58 0 31 Jan 2020
Generating Synthetic Audio Data for Attention-Based Speech Recognition Systems Nick Rossenbach Albert Zeyer Ralf Schluter Hermann Ney 95 84 0 19 Dec 2019
Speech Recognition with Augmented Synthesized Speech Andrew Rosenberg Yu Zhang Bhuvana Ramabhadran Ye Jia Pedro J. Moreno Yonghui Wu Zelin Wu 67 128 0 25 Sep 2019
Synthetic Data for Deep Learning Sergey I. Nikolenko 149 358 0 25 Sep 2019