LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech

5 April 2019

Papers citing "LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech"

50 / 222 papers shown

Title
FoundationTTS: Text-to-Speech for ASR Customization with Generative Language Model Rui Xue Yanqing Liu Lei He Xuejiao Tan Linquan Liu Ed Lin Sheng Zhao 34 7 0 06 Mar 2023
An investigation into the adaptability of a diffusion-based TTS model Haolin Chen Philip N. Garner DiffM 39 1 0 03 Mar 2023
Miipher: A Robust Speech Restoration Model Integrating Self-Supervised Speech and Text Representations Yuma Koizumi Heiga Zen Shigeki Karita Yifan Ding Kohei Yatabe Nobuyuki Morioka Yu Zhang Wei Han Ankur Bapna M. Bacchiani 39 22 0 03 Mar 2023
Text-only domain adaptation for end-to-end ASR using integrated text-to-mel-spectrogram generator Vladimir Bataev Roman Korostik Evgeny Shabalin Vitaly Lavrukhin Boris Ginsburg VLM 38 14 0 27 Feb 2023
Duration-aware pause insertion using pre-trained language model for multi-speaker text-to-speech Ke Wang Tomoki Koriyama Yuki Saito Takaaki Saeki Detai Xin Hiroshi Saruwatari 26 7 0 27 Feb 2023
Contrast-PLC: Contrastive Learning for Packet Loss Concealment Huaying Xue Xiulian Peng Yan Lu 54 4 0 26 Feb 2023
Exposing AI-Synthesized Human Voices Using Neural Vocoder Artifacts Chengzhe Sun Shan Jia Shuwei Hou Ehab AlBadawy Siwei Lyu 135 3 0 18 Feb 2023
Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision Eugene Kharitonov Damien Vincent Zalan Borsos Raphaël Marinier Sertan Girgin Olivier Pietquin Matthew Sharifi Marco Tagliasacchi Neil Zeghidour 24 191 0 07 Feb 2023
Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining Takaaki Saeki Soumi Maiti Xinjian Li Shinji Watanabe Shinnosuke Takamichi Hiroshi Saruwatari 34 18 0 30 Jan 2023
Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers Chengyi Wang Sanyuan Chen Yu-Huan Wu Zi-Hua Zhang Long Zhou ... Huaming Wang Jinyu Li Lei He Sheng Zhao Furu Wei 48 654 0 05 Jan 2023
ResGrad: Residual Denoising Diffusion Probabilistic Models for Text to Speech Ze Chen Yihan Wu Yichong Leng Jiawei Chen Haohe Liu ... Ke Wang Lei He Sheng Zhao Jiang Bian Danilo Mandic DiffM 37 22 0 30 Dec 2022
StyleTTS-VC: One-Shot Voice Conversion by Knowledge Transfer from Style-Based TTS Models Yinghao Aaron Li Cong Han N. Mesgarani 26 18 0 29 Dec 2022
Voice conversion with limited data and limitless data augmentations Olga Slizovskaia Jordi Janer Pritish Chandna Oscar Mayor 35 1 0 27 Dec 2022
MnTTS2: An Open-Source Multi-Speaker Mongolian Text-to-Speech Synthesis Dataset Kailin Liang Bin Liu Yifan Hu Rui Liu F. Bao Guanglai Gao 36 1 0 11 Dec 2022
DDSupport: Language Learning Support System that Displays Differences and Distances from Model Speech Kazuki Kawamura Jun Rekimoto 35 0 0 08 Dec 2022
Learning the joint distribution of two sequences using little or no paired data Soroosh Mariooryad Matt Shannon Siyuan Ma Tom Bagby David Kao Daisy Stanton Eric Battenberg RJ Skerry-Ryan 32 2 0 06 Dec 2022
Hiding speaker's sex in speech using zero-evidence speaker representation in an analysis/synthesis pipeline Paul-Gauthier Noé Xiaoxiao Miao Xin Wang Junichi Yamagishi J. Bonastre D. Matrouf 21 7 0 29 Nov 2022
Voice-preserving Zero-shot Multiple Accent Conversion Mumin Jin Prashant Serai Jilong Wu Andros Tjandra Vimal Manohar Qing He 19 12 0 23 Nov 2022
PromptTTS: Controllable Text-to-Speech with Text Descriptions Zhifang Guo Yichong Leng Yihan Wu Sheng Zhao Xuejiao Tan DiffM 27 91 0 22 Nov 2022
Grad-StyleSpeech: Any-speaker Adaptive Text-to-Speech Synthesis with Diffusion Models Minki Kang Dong Min Sung Ju Hwang DiffM 25 48 0 17 Nov 2022
A unified one-shot prosody and speaker conversion system with self-supervised discrete speech units Li-Wei Chen Shinji Watanabe Alexander I. Rudnicky 30 6 0 12 Nov 2022
Distinguishable Speaker Anonymization based on Formant and Fundamental Frequency Scaling Jixun Yao Qing Wang Yi Lei Pengcheng Guo Linfu Xie Namin Wang Jie Liu 38 14 0 06 Nov 2022
NoreSpeech: Knowledge Distillation based Conditional Diffusion Model for Noise-robust Expressive TTS Dongchao Yang Songxiang Liu Jianwei Yu Helin Wang Chao Weng Yuexian Zou DiffM VLM 43 18 0 04 Nov 2022
Adapter-Based Extension of Multi-Speaker Text-to-Speech Model for New Speakers Cheng-Ping Hsieh Subhankar Ghosh Boris Ginsburg 45 18 0 01 Nov 2022
Text-to-speech synthesis from dark data with evaluation-in-the-loop data selection Kentaro Seki Shinnosuke Takamichi Takaaki Saeki Hiroshi Saruwatari 27 6 0 26 Oct 2022
Cover Reproducible Steganography via Deep Generative Models Kejiang Chen Hang Zhou Yaofei Wang Meng Li Weiming Zhang Neng H. Yu DiffM 31 9 0 26 Oct 2022
Adapitch: Adaption Multi-Speaker Text-to-Speech Conditioned on Pitch Disentangling with Untranscribed Data Xulong Zhang Jianzong Wang Ning Cheng Jing Xiao 33 1 0 25 Oct 2022
On the Utility of Self-supervised Models for Prosody-related Tasks Guan-Ting Lin Chiyu Feng Wei-Ping Huang Yuan Tseng Tzu-Han Lin Chen-An Li Hung-yi Lee Nigel G. Ward 23 48 0 13 Oct 2022
Adversarial Speaker-Consistency Learning Using Untranscribed Speech Data for Zero-Shot Multi-Speaker Text-to-Speech Byoung Jin Choi Myeonghun Jeong Minchan Kim Sung Hwan Mun N. Kim DiffM 27 5 0 12 Oct 2022
WaveFit: An Iterative and Non-autoregressive Neural Vocoder based on Fixed-Point Iteration Yuma Koizumi Kohei Yatabe Heiga Zen M. Bacchiani DiffM 53 29 0 03 Oct 2022
Multi-Task Adversarial Training Algorithm for Multi-Speaker Neural Text-to-Speech Yusuke Nakai Yuki Saito K. Udagawa Hiroshi Saruwatari AAML 27 1 0 26 Sep 2022
NWPU-ASLP System for the VoicePrivacy 2022 Challenge Jixun Yao Qing Wang Li Zhang Pengcheng Guo Yuhao Liang Linfu Xie PICV 28 17 0 24 Sep 2022
MnTTS: An Open-Source Mongolian Text-to-Speech Synthesis Dataset and Accompanied Baseline Yifan Hu Pengkai Yin Rui Liu F. Bao Guanglai Gao 20 5 0 22 Sep 2022
Controllable Accented Text-to-Speech Synthesis Rui Liu Berrak Sisman Guanglai Gao Haizhou Li 44 6 0 22 Sep 2022
M^4I: Multi-modal Models Membership Inference Pingyi Hu Zihan Wang Ruoxi Sun Hu Wang Minhui Xue 39 26 0 15 Sep 2022
ProDiff: Progressive Fast Diffusion Model For High-Quality Text-to-Speech Rongjie Huang Zhou Zhao Huadai Liu Jinglin Liu Chenye Cui Yi Ren DiffM 44 195 0 13 Jul 2022
Speaker consistency loss and step-wise optimization for semi-supervised joint training of TTS and ASR using unpaired text data Naoki Makishima Satoshi Suzuki Atsushi Ando Ryo Masumura 146 4 0 11 Jul 2022
NESC: Robust Neural End-2-End Speech Coding with GANs N. Pia Kishan Gupta Srikanth Korse M. Multrus Guillaume Fuchs 35 15 0 07 Jul 2022
Glow-WaveGAN 2: High-quality Zero-shot Text-to-speech Synthesis and Any-to-any Voice Conversion Yinjiao Lei Shan Yang Jian Cong Linfu Xie Dan Su DiffM 64 12 0 05 Jul 2022
STOP: A dataset for Spoken Task Oriented Semantic Parsing Paden Tomasello Akshat Shrivastava Daniel Lazar Po-Chun Hsu Duc Le ... Robin Algayres Tu Nguyen Emmanuel Dupoux Luke Zettlemoyer Abdel-rahman Mohamed 30 35 0 29 Jun 2022
RetrieverTTS: Modeling Decomposed Factors for Text-Based Speech Insertion Dacheng Yin Chuanxin Tang Yanqing Liu Xiaoqiang Wang Zhiyuan Zhao Yucheng Zhao Zhiwei Xiong Sheng Zhao Chong Luo 31 12 0 28 Jun 2022
Towards Understanding and Mitigating Audio Adversarial Examples for Speaker Recognition Guangke Chen Zhe Zhao Fu Song Sen Chen Lingling Fan Feng Wang Jiashui Wang AAML 27 37 0 07 Jun 2022
FlexLip: A Controllable Text-to-Lip System Dan Oneaţă Beáta Lőrincz Adriana Stan H. Cucu 28 3 0 07 Jun 2022
Zero-Shot Voice Conditioning for Denoising Diffusion TTS Models Alon Levkovitch Eliya Nachmani Lior Wolf DiffM 21 29 0 05 Jun 2022
AdaVITS: Tiny VITS for Low Computing Resource Speaker Adaptation Kun Song Heyang Xue Xinsheng Wang Jian Cong Yongmao Zhang Linfu Xie Bing Yang Xiong Zhang Dan Su 24 5 0 01 Jun 2022
StyleTTS: A Style-Based Generative Model for Natural and Diverse Text-to-Speech Synthesis Yinghao Aaron Li Cong Han N. Mesgarani 48 38 0 30 May 2022
End-to-End Zero-Shot Voice Conversion with Location-Variable Convolutions Wonjune Kang M. Hasegawa-Johnson D. Roy 37 8 0 19 May 2022
GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech Rongjie Huang Yi Ren Jinglin Liu Chenye Cui Zhou Zhao OODD VLM 117 34 0 15 May 2022
The VoicePrivacy 2020 Challenge Evaluation Plan N. Tomashenko B. M. L. Srivastava Xin Wang Emmanuel Vincent A. Nautsch ... Nicholas W. D. Evans J. Patino J. Bonastre Paul-Gauthier Noé Massimiliano Todisco 46 43 0 14 May 2022
Brainish: Formalizing A Multimodal Language for Intelligence and Consciousness Paul Pu Liang 32 4 0 14 Apr 2022