v1v2 (latest)

HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis

12 October 2020

Papers citing "HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis"

50 / 1,154 papers shown

Title
Improving Accented Speech Recognition using Data Augmentation based on Unsupervised Text-to-Speech Synthesis Cong-Thanh Do Shuhei Imai R. Doddipatla Thomas Hain 94 3 0 04 Jul 2024
On the Effectiveness of Acoustic BPE in Decoder-Only TTS Bohan Li Feiyu Shen Yiwei Guo Shuai Wang Xie Chen Kai Yu 102 2 0 04 Jul 2024
Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations Kunal Dhawan Nithin Rao Koluguri Ante Jukić Ryan Langman Jagadeesh Balam Boris Ginsburg 104 3 0 03 Jul 2024
MuDiT & MuSiT: Alignment with Colloquial Expression in Description-to-Song Generation Zihao Wang Haoxuan Liu Jiaxing Yu Tao Zhang Yan Liu Jianchao Tan 139 1 0 03 Jul 2024
Probing the Feasibility of Multilingual Speaker Anonymization Sarina Meyer Florian Lux Ngoc Thang Vu 120 4 0 03 Jul 2024
Accompanied Singing Voice Synthesis with Fully Text-controlled Melody Ruiqi Li Zhiqing Hong Yongqi Wang Lichao Zhang Rongjie Huang Siqi Zheng Zhou Zhao 114 8 0 02 Jul 2024
Lightweight Zero-shot Text-to-Speech with Mixture of Adapters Kenichi Fujita Takanori Ashihara Marc Delcroix Yusuke Ijima 82 2 0 01 Jul 2024
Towards Robust Speech Representation Learning for Thousands of Languages William Chen Wangyou Zhang Yifan Peng Xinjian Li Jinchuan Tian Jiatong Shi Xuankai Chang Soumi Maiti Karen Livescu Shinji Watanabe ELM 149 19 0 30 Jun 2024
NAIST Simultaneous Speech Translation System for IWSLT 2024 Yuka Ko Ryo Fukuda Yuta Nishikawa Yasumasa Kano Tomoya Yanagita ... Haotian Tan Makoto Sakai S. Sakti Katsuhito Sudoh Satoshi Nakamura 141 1 0 30 Jun 2024
An Attribute Interpolation Method in Speech Synthesis by Model Merging Masato Murata Koichi Miyazaki Tomoki Koriyama MoMe 122 6 0 30 Jun 2024
FLY-TTS: Fast, Lightweight and High-Quality End-to-End Text-to-Speech Synthesis Yinlin Guo Yening Lv Jinqiao Dou Yan Zhang Yuehai Wang 80 0 0 30 Jun 2024
Open-Source Conversational AI with SpeechBrain 1.0 Mirco Ravanelli Titouan Parcollet Adel Moumen Sylvain de Langen Cem Subakan ... Salima Mdhaffar G. Laperriere Mickael Rouvier Renato De Mori Yannick Esteve VLM 158 17 0 29 Jun 2024
DEX-TTS: Diffusion-based EXpressive Text-to-Speech with Style Modeling on Time Variability Hyun Joon Park Jin Sob Kim Wooseok Shin Sung Won Han DiffM 80 3 0 27 Jun 2024
E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS Sefik Emre Eskimez Xiaofei Wang Manthan Thakker Canrun Li Chung-Hsien Tsai ... Min Tang Xu Tan Yanqing Liu Sheng Zhao Naoyuki Kanda VLM 81 70 0 26 Jun 2024
SpecMaskGIT: Masked Generative Modeling of Audio Spectrograms for Efficient Audio Synthesis and Beyond Marco Comunità Zhi-Wei Zhong Akira Takahashi Shiqi Yang Mengjie Zhao Koichi Saito Yukara Ikemiya Takashi Shibuya Shusuke Takahashi Yuki Mitsufuji 116 6 0 25 Jun 2024
Exploring the Capability of Mamba in Speech Applications Koichi Miyazaki Yoshiki Masuyama Masato Murata Mamba 120 16 0 24 Jun 2024
Towards Zero-Shot Text-To-Speech for Arabic Dialects Khai Duy Doan Abdul Waheed Muhammad Abdul-Mageed 91 0 0 24 Jun 2024
Improving Unsupervised Clean-to-Rendered Guitar Tone Transformation Using GANs and Integrated Unaligned Clean Data Yu-Hua Chen Woosung Choi Wei-Hsiang Liao Marco A. Martínez-Ramírez K. Cheuk Yuki Mitsufuji J. Jang Yi-Hsuan Yang 79 5 0 22 Jun 2024
CONMOD: Controllable Neural Frame-based Modulation Effects Gyubin Lee Hounsu Kim Junwon Lee Juhan Nam 62 0 0 20 Jun 2024
Articulatory Encodec: Coding Speech through Vocal Tract Kinematics Cheol Jun Cho Peter Wu Tejas S. Prabhune Dhruv Agarwal Gopala K. Anumanchipalli 110 8 0 18 Jun 2024
PSLM: Parallel Generation of Text and Speech with LLMs for Low-Latency Spoken Dialogue Systems Kentaro Mitsui Koh Mitsuda Toshiaki Wakatsuki Yukiya Hono Kei Sawada 107 6 0 18 Jun 2024
Instruction Data Generation and Unsupervised Adaptation for Speech Language Models Vahid Noroozi Zhehuai Chen Somshubra Majumdar Steve Huang Jagadeesh Balam Boris Ginsburg SyDa 145 5 0 18 Jun 2024
Universal Score-based Speech Enhancement with High Content Preservation Robin Scheibler Yusuke Fujita Yuma Shirahata Tatsuya Komatsu DiffM 121 15 0 18 Jun 2024
Improving Text-To-Audio Models with Synthetic Captions Zhifeng Kong Sang-gil Lee Deepanway Ghosal Navonil Majumder Ambuj Mehrish Rafael Valle Soujanya Poria Bryan Catanzaro 115 13 0 18 Jun 2024
Imperceptible Rhythm Backdoor Attacks: Exploring Rhythm Transformation for Embedding Undetectable Vulnerabilities on Speech Recognition Wenhan Yao Jiangkun Yang yongqiang He Jia Liu Weiping Wen 104 3 0 16 Jun 2024
SingMOS: An extensive Open-Source Singing Voice Dataset for MOS Prediction Yuxun Tang Jiatong Shi Yuning Wu Qin Jin 91 11 0 16 Jun 2024
How Should We Extract Discrete Audio Tokens from Self-Supervised Models? Pooneh Mousavi J. Duret Salah Zaiem Luca Della Libera Artem Ploujnikov Cem Subakan Mirco Ravanelli 104 15 0 15 Jun 2024
Diffusion Synthesizer for Efficient Multilingual Speech to Speech Translation Nameer Hirschkind Xiao Yu Mahesh Kumar Nandwana Joseph Liu Eloi DuBois ... Colin Sinclair Kyle Spence Charles Shang Zoë Abrams Morgan McGuire 66 0 0 14 Jun 2024
Period Singer: Integrating Periodic and Aperiodic Variational Autoencoders for Natural-Sounding End-to-End Singing Voice Synthesis Taewoo Kim Choongsang Cho Young Han Lee AI4TS 80 1 0 14 Jun 2024
Vec-Tok-VC+: Residual-enhanced Robust Zero-shot Voice Conversion with Progressive Constraints in a Dual-mode Training Strategy Linhan Ma Xinfa Zhu Yuanjun Lv Zhichao Wang Ziqian Wang Wendi He Hongbin Zhou Lei Xie 80 3 0 14 Jun 2024
End-to-end Streaming model for Low-Latency Speech Anonymization Waris Quamer Ricardo Gutierrez-Osuna 105 0 0 13 Jun 2024
Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos Changan Chen Puyuan Peng Ami Baid Zihui Xue Wei-Ning Hsu David Harwath Kristen Grauman VGen 101 8 0 13 Jun 2024
ToneUnit: A Speech Discretization Approach for Tonal Language Speech Synthesis Dehua Tao Daxin Tan Y. Yeung Xiao Chen Tan Lee 84 3 0 13 Jun 2024
SingOMD: Singing Oriented Multi-resolution Discrete Representation Construction from Speech Models Yuxun Tang Yuning Wu Jiatong Shi Qin Jin 114 5 0 13 Jun 2024
DisfluencySpeech -- Single-Speaker Conversational Speech Dataset with Paralanguage Kyra Wang Dorien Herremans 124 0 0 13 Jun 2024
DubWise: Video-Guided Speech Duration Control in Multimodal LLM-based Text-to-Speech for Dubbing Neha Sahipjohn Ashishkumar Gudmalwar Nirmesh Shah Pankaj Wasnik R. Shah 113 7 0 13 Jun 2024
VISinger2+: End-to-End Singing Voice Synthesis Augmented by Self-Supervised Learning Representation Yifeng Yu Jiatong Shi Yuning Wu Shinji Watanabe 74 4 0 13 Jun 2024
Toward Fully-End-to-End Listened Speech Decoding from EEG Signals Jihwan Lee Aditya Kommineni Tiantian Feng Kleanthis Avramidis Xuan Shi Sudarsana Reddy Kadiri Shrikanth Narayanan 72 2 0 12 Jun 2024
Training Data Augmentation for Dysarthric Automatic Speech Recognition by Text-to-Dysarthric-Speech Synthesis Wing-Zin Leung Mattias Cross Anton Ragni Stefan Goetze 66 10 0 12 Jun 2024
TokSing: Singing Voice Synthesis based on Discrete Tokens Yuning Wu Chunlei Zhang Jiatong Shi Yuxun Tang Shan Yang Qin Jin 89 6 0 12 Jun 2024
LAFMA: A Latent Flow Matching Model for Text-to-Audio Generation Wenhao Guan Kaidi Wang Wangjin Zhou Yang Wang Feng Deng Hui Wang Lin Li Q. Hong Yong Qin DiffM 85 6 0 12 Jun 2024
Asynchronous Voice Anonymization Using Adversarial Perturbation On Speaker Embedding Rui Wang Liping Chen Kong Aik Lee Zhen-Hua Ling 77 3 0 12 Jun 2024
FreeV: Free Lunch For Vocoders Through Pseudo Inversed Mel Filter Yuanjun Lv Hai Li Ying Yan Junhui Liu Danming Xie Lei Xie 109 1 0 12 Jun 2024
VECL-TTS: Voice identity and Emotional style controllable Cross-Lingual Text-to-Speech Ashishkumar Gudmalwar Nirmesh Shah Sai Akarsh Pankaj Wasnik R. Shah 72 3 0 12 Jun 2024
Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation Se Jin Park Chae Won Kim Hyeongseop Rha Minsu Kim Joanna Hong Jeong Hun Yeo Yong Man Ro CVBM AuLLM 97 14 0 12 Jun 2024
PolySpeech: Exploring Unified Multitask Speech Models for Competitiveness with Single-task Models Runyan Yang Huibao Yang Xiqing Zhang Tiantian Ye Ying Liu Yingying Gao Shilei Zhang Chao Deng Junlan Feng 98 0 0 12 Jun 2024
AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation Kai Wang Shijian Deng Jing Shi Dimitrios Hatzinakos Yapeng Tian VGen 132 11 0 11 Jun 2024
Pre-training Feature Guided Diffusion Model for Speech Enhancement Yiyuan Yang Niki Trigoni Andrew Markham 160 3 0 11 Jun 2024
RaD-Net 2: A causal two-stage repairing and denoising speech enhancement network with knowledge distillation and complex axial self-attention Mingshuai Liu Zhuangqi Chen Xiaopeng Yan Yuanjun Lv Xianjun Xia Chuanzeng Huang Yijian Xiao Lei Xie 87 4 0 11 Jun 2024
CTC-based Non-autoregressive Textless Speech-to-Speech Translation Qingkai Fang Zhengrui Ma Yan Zhou Min Zhang Yang Feng 93 0 0 11 Jun 2024