HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis

12 October 2020

Papers citing "HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis"

50 / 1,107 papers shown

Title
Voice Conversion With Just Nearest Neighbors Matthew Baas Benjamin van Niekerk Herman Kamper SSL 42 49 0 30 May 2023
Speaker anonymization using orthogonal Householder neural network Xiaoxiao Miao Xin Wang Erica Cooper Junichi Yamagishi N. Tomashenko BDL 31 18 0 30 May 2023
LibriTTS-R: A Restored Multi-Speaker Text-to-Speech Corpus Yuma Koizumi Heiga Zen Shigeki Karita Yifan Ding Kohei Yatabe Nobuyuki Morioka M. Bacchiani Yu Zhang Wei Han Ankur Bapna 48 66 0 30 May 2023
Automatic Evaluation of Turn-taking Cues in Conversational Speech Synthesis Erik Ekstedt Siyang Wang Éva Székely Joakim Gustafson Gabriel Skantze 28 6 0 29 May 2023
StyleS2ST: Zero-shot Style Transfer for Direct Speech-to-speech Translation Kun Song Yi Ren Yinjiao Lei Chunfeng Wang Kun Wei Linfu Xie Xiang Yin Zejun Ma 40 8 0 28 May 2023
Stochastic Pitch Prediction Improves the Diversity and Naturalness of Speech in Glow-TTS Sewade Ogun Vincent Colotte Emmanuel Vincent DiffM 40 4 0 28 May 2023
Translatotron 3: Speech to Speech Translation with Monolingual Data Eliya Nachmani Alon Levkovitch Yi-Yang Ding Chulayutsh Asawaroengchai Heiga Zen Michelle Tadmor Ramanovich 41 14 0 27 May 2023
Diverse and Expressive Speech Prosody Prediction with Denoising Diffusion Probabilistic Model Xiang Li Songxiang Liu Max W. Y. Lam Zhiyong Wu Chao Weng Helen Meng DiffM 29 5 0 26 May 2023
Automatic Tuning of Loss Trade-offs without Hyper-parameter Search in End-to-End Zero-Shot Speech Synthesis Seong-Hyun Park Bohyung Kim Tae-Hyun Oh 50 1 0 26 May 2023
DDDM-VC: Decoupled Denoising Diffusion Models with Disentangled Representation and Prior Mixup for Verified Robust Voice Conversion Haram Choi Sang-Hoon Lee Seong-Whan Lee DiffM 18 27 0 25 May 2023
Efficient Neural Music Generation Max W. Y. Lam Qiao Tian Tang-Chun Li Zongyu Yin Siyuan Feng ... Mingbo Ma Xuchen Song Jitong Chen Yuping Wang Yuxuan Wang DiffM MGen 34 49 0 25 May 2023
AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation Rongjie Huang Huadai Liu Xize Cheng Yi Ren Lin Li ... Jinzheng He Lichao Zhang Jinglin Liu Xiaoyue Yin Zhou Zhao 78 8 0 24 May 2023
Spoken Question Answering and Speech Continuation Using Spectrogram-Powered LLM Eliya Nachmani Alon Levkovitch Roy Hirsch Julián Salazar Chulayutsh Asawaroengchai Soroosh Mariooryad Ehud Rivlin RJ Skerry-Ryan Michelle Tadmor Ramanovich AuLLM 39 35 0 24 May 2023
EfficientSpeech: An On-Device Text to Speech Model Rowel Atienza 36 4 0 23 May 2023
ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech Synthesis with Diffusion and Style-based Models Minki Kang Wooseok Han Sung Ju Hwang Eunho Yang DiffM 43 18 0 23 May 2023
ChatGPT-EDSS: Empathetic Dialogue Speech Synthesis Trained from ChatGPT-derived Context Word Embeddings Yuki Saito Shinnosuke Takamichi Eiji Iimori Kentaro Tachibana Hiroshi Saruwatari 51 11 0 23 May 2023
CALLS: Japanese Empathetic Dialogue Speech Corpus of Complaint Handling and Attentive Listening in Customer Center Yuki Saito Eiji Iimori Shinnosuke Takamichi Kentaro Tachibana Hiroshi Saruwatari 37 2 0 23 May 2023
FluentSpeech: Stutter-Oriented Automatic Speech Editing with Context-Aware Diffusion Models Ziyue Jiang Qiang Yang Jia-li Zuo Zhe Ye Rongjie Huang Yixiang Ren Zhou Zhao DiffM 70 14 0 23 May 2023
Scaling Speech Technology to 1,000+ Languages Vineel Pratap Andros Tjandra Bowen Shi Paden Tomasello Arun Babu ... Yossi Adi Xiaohui Zhang Wei-Ning Hsu Alexis Conneau Michael Auli VLM 85 304 0 22 May 2023
U-DiT TTS: U-Diffusion Vision Transformer for Text-to-Speech Xin Jing Yi Chang Zijiang Yang Jiang-jian Xie Andreas Triantafyllopoulos Bjoern W. Schuller 41 10 0 22 May 2023
Towards generalizing deep-audio fake detection networks Konstantin Gasenzer Moritz Wolter 36 4 0 22 May 2023
Textually Pretrained Speech Language Models Michael Hassid Tal Remez Tu Nguyen Itai Gat Alexis Conneau ... Alexandre Défossez Gabriel Synnaeve Emmanuel Dupoux Roy Schwartz Yossi Adi VLM SyDa 51 54 0 22 May 2023
NAS-FM: Neural Architecture Search for Tunable and Interpretable Sound Synthesis based on Frequency Modulation Zhe Ye Wei Xue Xuejiao Tan Qi-fei Liu Yi-Ting Guo 28 2 0 22 May 2023
ViT-TTS: Visual Text-to-Speech with Scalable Diffusion Transformer Huadai Liu Rongjie Huang Xuan Lin Wenqiang Xu Maozong Zheng Hong Chen Jinzheng He Zhou Zhao DiffM 60 20 0 22 May 2023
Duplex Diffusion Models Improve Speech-to-Speech Translation Xianchao Wu DiffM 27 4 0 22 May 2023
Laughter Synthesis using Pseudo Phonetic Tokens with a Large-scale In-the-wild Laughter Corpus Detai Xin Shinnosuke Takamichi Ai Morimatsu Hiroshi Saruwatari 26 10 0 21 May 2023
EE-TTS: Emphatic Expressive TTS with Linguistic Information Yifan Zhong Chen Zhang Xule Liu Chenxi Sun Weishan Deng Haifeng Hu Zhongqian Sun 26 3 0 20 May 2023
Any-to-Any Generation via Composable Diffusion Zineng Tang Ziyi Yang Chenguang Zhu Michael Zeng Joey Tianyi Zhou VGen DiffM 38 174 0 19 May 2023
MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low Resource Setting Neil Shah Vishal Tambrahalli Saiteja Kosgi N. Pedanekar Vineet Gandhi 46 0 0 19 May 2023
A Preliminary Study on Augmenting Speech Emotion Recognition using a Diffusion Model Ibrahim Malik S. Latif Raja Jurdak Björn Schuller DiffM 22 9 0 19 May 2023
DUB: Discrete Unit Back-translation for Speech Translation Dong Zhang Rong Ye Tom Ko Mingxuan Wang Yaqian Zhou 34 23 0 19 May 2023
mdctGAN: Taming transformer-based GAN for speech super-resolution with Modified DCT spectra Chenhao Shuai Chaohua Shi Lu Gan Hongqing Liu 33 8 0 18 May 2023
FastFit: Towards Real-Time Iterative Neural Vocoder by Replacing U-Net Encoder With Multiple STFTs Won Jang D. Lim Heayoung Park 39 1 0 18 May 2023
CLAPSpeech: Learning Prosody from Text Context with Contrastive Language-Audio Pre-training Zhe Ye Rongjie Huang Yi Ren Ziyue Jiang Jinglin Liu Jinzheng He Xiang Yin Zhou Zhao CLIP 26 20 0 18 May 2023
RMSSinger: Realistic-Music-Score based Singing Voice Synthesis Jinzheng He Jinglin Liu Zhenhui Ye Rongjie Huang Chenye Cui Huadai Liu Zhou Zhao DiffM 22 19 0 18 May 2023
Controllable Speaking Styles Using a Large Language Model A. Sigurgeirsson Simon King 25 2 0 17 May 2023
Adversarial Speaker Disentanglement Using Unannotated External Data for Self-supervised Representation Based Voice Conversion Xintao Zhao Shuai Wang Yang Chao Zhiyong Wu Helen Meng 42 3 0 16 May 2023
Back Translation for Speech-to-text Translation Without Transcripts Qingkai Fang Yang Feng 45 13 0 15 May 2023
APNet: An All-Frame-Level Neural Vocoder Incorporating Direct Prediction of Amplitude and Phase Spectra Yang Ai Zhenhua Ling 39 13 0 13 May 2023
CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model Zhe Ye Wei Xue Xuejiao Tan Jie Chen Qi-fei Liu Yi-Ting Guo DiffM 32 40 0 11 May 2023
Extending Audio Masked Autoencoders Toward Audio Restoration Zhi-Wei Zhong Hao Shi M. Hirano Kazuki Shimada Kazuya Tateishi Takashi Shibuya Shusuke Takahashi Yuki Mitsufuji 32 5 0 11 May 2023
Learn to Sing by Listening: Building Controllable Virtual Singer by Unsupervised Learning from Voice Recordings Wei Xue Yiwen Wang Qi-fei Liu Yi-Ting Guo 44 1 0 09 May 2023
Joint Multi-scale Cross-lingual Speaking Style Transfer with Bidirectional Attention Mechanism for Automatic Dubbing Jingbei Li Sipan Li Ping Chen Lu Zhang Yi Meng Zhiyong Wu Helen Meng Qiao Tian Yuping Wang Yuxuan Wang 40 3 0 09 May 2023
AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment Ruiqi Li Rongjie Huang Lichao Zhang Jinglin Liu Zhou Zhao 33 4 0 08 May 2023
HiFi-Codec: Group-residual Vector quantization for High Fidelity Audio Codec Dongchao Yang Songxiang Liu Rongjie Huang Jinchuan Tian Chao Weng Yuexian Zou 150 124 0 04 May 2023
M2-CTTS: End-to-End Multi-scale Multi-modal Conversational Text-to-Speech Synthesis Jinlong Xue Yayue Deng Fengping Wang Ya Li Yingming Gao J. Tao Jianqing Sun Jiaen Liang 26 8 0 03 May 2023
Source-Filter-Based Generative Adversarial Neural Vocoder for High Fidelity Speech Synthesis Ye-Xin Lu Yang Ai Zhenhua Ling 24 1 0 26 Apr 2023
Foley Sound Synthesis at the DCASE 2023 Challenge Keunwoo Choi Jae-Yeol Im Laurie M. Heller Brian McFee Keisuke Imoto Yuki Okamoto Mathieu Lagrange Shinosuke Takamichi 24 30 0 25 Apr 2023
Zero-shot text-to-speech synthesis conditioned using self-supervised speech representation model Kenichi Fujita Takanori Ashihara Hiroki Kanagawa Takafumi Moriya Yusuke Ijima 48 10 0 24 Apr 2023
Text-to-Audio Generation using Instruction-Tuned LLM and Latent Diffusion Model Deepanway Ghosal Navonil Majumder Ambuj Mehrish Soujanya Poria 152 145 0 24 Apr 2023