LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech

5 April 2019

Papers citing "LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech"

50 / 222 papers shown

Title
Robust Zero-Shot Text-to-Speech Synthesis with Reverse Inference Optimization Yuchen Hu Chen Chen Siyin Wang Eng Siong Chng C. Zhang 48 3 0 02 Jul 2024
Improving Robustness of LLM-based Speech Synthesis by Learning Monotonic Alignment Paarth Neekhara Shehzeen Samarah Hussain Subhankar Ghosh Jason Chun Lok Li Rafael Valle Rohan Badlani Boris Ginsburg 58 11 0 25 Jun 2024
Sound Tagging in Infant-centric Home Soundscapes Mohammad Nur Hossain Khan Jialu Li Nancy L. McElwain M. Hasegawa-Johnson Bashima Islam 23 0 0 25 Jun 2024
Vec-Tok-VC+: Residual-enhanced Robust Zero-shot Voice Conversion with Progressive Constraints in a Dual-mode Training Strategy Linhan Ma Xinfa Zhu Yuanjun Lv Zhichao Wang Ziqian Wang Wendi He Hongbin Zhou Lei Xie 44 2 0 14 Jun 2024
Controlling Emotion in Text-to-Speech with Natural Language Prompts Thomas Bott Florian Lux Ngoc Thang Vu 45 6 0 10 Jun 2024
Learning Fine-Grained Controllability on Speech Generation via Efficient Fine-Tuning Chung-Ming Chien Andros Tjandra Apoorv Vyas Matt Le Bowen Shi Wei-Ning Hsu 32 0 0 10 Jun 2024
LiveSpeech: Low-Latency Zero-shot Text-to-Speech via Autoregressive Modeling of Audio Discrete Codes Trung D. Q. Dang David Aponte Dung Tran K. Koishida 38 4 0 05 Jun 2024
Evaluating Text-to-Speech Synthesis from a Large Discrete Token-based Speech Language Model Siyang Wang Éva Székely 47 4 0 16 May 2024
MAD Speech: Measures of Acoustic Diversity of Speech Matthieu Futeral A. Agostinelli Marco Tagliasacchi Neil Zeghidour Eugene Kharitonov 56 1 0 16 Apr 2024
The Impact of Speech Anonymization on Pathology and Its Limits Soroosh Tayebi Arasteh T. Arias-Vergara Paula Andrea Pérez-Toro Tobias Weise Kai Packhaeuser Maria Schuster E. Noeth Andreas Maier Seung Hee Yang 43 3 0 11 Apr 2024
The VoicePrivacy 2024 Challenge Evaluation Plan N. Tomashenko Xiaoxiao Miao Pierre Champion Sarina Meyer Xin Wang Emmanuel Vincent Michele Panariello Nicholas W. D. Evans Junichi Yamagishi Massimiliano Todisco 49 23 0 03 Apr 2024
Multi-Level Attention Aggregation for Language-Agnostic Speaker Replication Yejin Jeon Gary Geunbae Lee 31 2 0 06 Mar 2024
Streaming Sequence Transduction through Dynamic Compression Weiting Tan Yunmo Chen Tongfei Chen Guanghui Qin Haoran Xu Heidi C. Zhang Benjamin Van Durme Philipp Koehn 29 2 0 02 Feb 2024
VALL-T: Decoder-Only Generative Transducer for Robust and Decoding-Controllable Text-to-Speech Chenpeng Du Yiwei Guo Hankun Wang Yifan Yang Zhikang Niu Shuai Wang Hui Zhang Xie Chen Kai Yu VLM 35 25 0 25 Jan 2024
Detecting Multimedia Generated by Large AI Models: A Survey Li Lin Neeraj Gupta Yue Zhang Hainan Ren Chun-Hao Liu Feng Ding Xin Eric Wang Xin Li Luisa Verdoliva Shu Hu 88 58 0 22 Jan 2024
Amphion: An Open-Source Audio, Music and Speech Generation Toolkit Xueyao Zhang Liumeng Xue Yicheng Gu Yuancheng Wang Haorui He ... Mingxuan Wang Jun Han Kai Chen Haizhou Li Zhizheng Wu 31 29 0 15 Dec 2023
SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross Attention Junjie Li Yiwei Guo Xie Chen Kai Yu 50 13 0 14 Dec 2023
Quantifying the redundancy between prosody and text Lukas Wolf Tiago Pimentel Evelina Fedorenko Ryan Cotterell Alex Warstadt Ethan Gotlieb Wilcox Tamar I. Regev 33 10 0 28 Nov 2023
StyleCap: Automatic Speaking-Style Captioning from Speech Based on Speech and Language Self-supervised Learning Models Kazuki Yamauchi Yusuke Ijima Yuki Saito 41 8 0 28 Nov 2023
DINO-VITS: Data-Efficient Zero-Shot TTS with Self-Supervised Speaker Verification Loss for Noise Robustness Vikentii Pankov Valeria Pronina Alexander Kuzmin Maksim Borisov Nikita Usoltsev Xingshan Zeng Alexander Golubkov Nikolai Ermolenko Aleksandra Shirshova Yulia Matveeva 39 2 0 16 Nov 2023
Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation Haram Choi Sang-Hoon Lee Seong-Whan Lee DiffM 34 24 0 08 Nov 2023
CompA: Addressing the Gap in Compositional Reasoning in Audio-Language Models Sreyan Ghosh Ashish Seth Sonal Kumar Utkarsh Tyagi Chandra Kiran Reddy Evuru S. Ramaneswaran S. Sakshi Oriol Nieto R. Duraiswami Dinesh Manocha AuLLM VLM CoGe 48 23 0 12 Oct 2023
Few-Shot Spoken Language Understanding via Joint Speech-Text Models Chung-Ming Chien Mingjiamei Zhang Ju-Chieh Chou Karen Livescu 39 3 0 09 Oct 2023
GeRA: Label-Efficient Geometrically Regularized Alignment Dustin Klebe Tal Shnitzer Mikhail Yurochkin Leonid Karlinsky Justin Solomon 23 2 0 01 Oct 2023
Joint Audio and Speech Understanding Yuan Gong Alexander H. Liu Hongyin Luo Leonid Karlinsky James R. Glass AuLLM 28 69 0 25 Sep 2023
Fewer-token Neural Speech Codec with Time-invariant Codes Yong Ren Tao Wang Jiangyan Yi Le Xu Jianhua Tao Chuyuan Zhang Jun Zhou 25 33 0 15 Sep 2023
FunCodec: A Fundamental, Reproducible and Integrable Open-source Toolkit for Neural Speech Codec Zhihao Du Shiliang Zhang Kai Hu Siqi Zheng 34 55 0 14 Sep 2023
Cross-Utterance Conditioned VAE for Speech Generation Yongqian Li Cheng Yu Guangzhi Sun Weiqin Zu Zheng Tian ... Wei Pan Chao Zhang Jun Wang Yang Yang Fanglei Sun 26 2 0 08 Sep 2023
Highly Controllable Diffusion-based Any-to-Any Voice Conversion Model with Frame-level Prosody Feature Kyungguen Byun Sunkuk Moon Erik Visser DiffM 37 1 0 06 Sep 2023
Stylebook: Content-Dependent Speaking Style Modeling for Any-to-Any Voice Conversion using Only Speech Data Hyungseob Lim Kyungguen Byun Sunkuk Moon Erik Visser DiffM 28 2 0 06 Sep 2023
The DeepZen Speech Synthesis System for Blizzard Challenge 2023 C. Veaux R. Maia Spyridoula Papendreou 27 1 0 30 Aug 2023
Pruning Self-Attention for Zero-Shot Multi-Speaker Text-to-Speech Hyungchan Yoon Changhwan Kim Eunwoo Song Hyun-Wook Yoon Hong-Goo Kang 42 1 0 28 Aug 2023
VoiceBank-2023: A Multi-Speaker Mandarin Speech Corpus for Constructing Personalized TTS Systems for the Speech Impaired Jia-Jyu Su Pang-Chen Liao Yen-Ting Lin Wu-Hao Li Guan-Ting Liou ... Wei-Cheng Chen Jen-Chieh Chiang Wen-Yang Chang Pin-Han Lin Chen-Yu Chiang 31 1 0 27 Aug 2023
Audio-visual video-to-speech synthesis with synthesized input audio Triantafyllos Kefalas Yannis Panagakis Maja Pantic VGen DiffM 38 1 0 31 Jul 2023
HierVST: Hierarchical Adaptive Zero-shot Voice Style Transfer Sang-Hoon Lee Haram Choi H. Oh Seong-Whan Lee BDL 30 9 0 30 Jul 2023
Adaptation of Whisper models to child speech recognition Rishabh Jain Andrei Barcovschi Mariam Yiwere Peter Corcoran H. Cucu 19 30 0 24 Jul 2023
DSE-TTS: Dual Speaker Embedding for Cross-Lingual Text-to-Speech Sen Liu Yiwei Guo Chenpeng Du Xie Chen Kai Yu 34 6 0 25 Jun 2023
Vocos: Closing the gap between time-domain and Fourier-based neural vocoders for high-quality audio synthesis Hubert Siuzdak 37 79 0 01 Jun 2023
Speaker anonymization using orthogonal Householder neural network Xiaoxiao Miao Xin Wang Erica Cooper Junichi Yamagishi N. Tomashenko BDL 26 18 0 30 May 2023
LibriTTS-R: A Restored Multi-Speaker Text-to-Speech Corpus Yuma Koizumi Heiga Zen Shigeki Karita Yifan Ding Kohei Yatabe Nobuyuki Morioka M. Bacchiani Yu Zhang Wei Han Ankur Bapna 48 66 0 30 May 2023
Stochastic Pitch Prediction Improves the Diversity and Naturalness of Speech in Glow-TTS Sewade Ogun Vincent Colotte Emmanuel Vincent DiffM 40 4 0 28 May 2023
Automatic Tuning of Loss Trade-offs without Hyper-parameter Search in End-to-End Zero-Shot Speech Synthesis Seong-Hyun Park Bohyung Kim Tae-Hyun Oh 50 1 0 26 May 2023
ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech Synthesis with Diffusion and Style-based Models Minki Kang Wooseok Han Sung Ju Hwang Eunho Yang DiffM 36 18 0 23 May 2023
Data Redaction from Conditional Generative Models Zhifeng Kong Kamalika Chaudhuri KELM 26 7 0 18 May 2023
FastFit: Towards Real-Time Iterative Neural Vocoder by Replacing U-Net Encoder With Multiple STFTs Won Jang D. Lim Heayoung Park 34 1 0 18 May 2023
Learn to Sing by Listening: Building Controllable Virtual Singer by Unsupervised Learning from Voice Recordings Wei Xue Yiwen Wang Qi-fei Liu Yi-Ting Guo 41 1 0 09 May 2023
AI-Synthesized Voice Detection Using Neural Vocoder Artifacts Chengzhe Sun Shan Jia Shuwei Hou Siwei Lyu 38 40 0 25 Apr 2023
Affective social anthropomorphic intelligent system Md. Adyelullahil Mamun Hasnat Md. Abdullah Md. Golam Rabiul Alam Muhammad Mehedi Hassan Md. Zia Uddin 22 1 0 19 Apr 2023
DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder Chenpeng Du Qi Chen Xie Chen K. Yu DiffM 42 50 0 30 Mar 2023
Personalized Lightweight Text-to-Speech: Voice Cloning with Adaptive Structured Pruning Sung-Feng Huang Chia-Ping Chen Zhi-Sheng Chen Yu-Pao Tsai Hung-yi Lee 38 3 0 21 Mar 2023