WaveFit: An Iterative and Non-autoregressive Neural Vocoder based on Fixed-Point Iteration

3 October 2022

Papers citing "WaveFit: An Iterative and Non-autoregressive Neural Vocoder based on Fixed-Point Iteration"

50 / 58 papers shown

Title
Miipher-2: A Universal Speech Restoration Model for Million-Hour Scale Data Restoration Shigeki Karita Yuma Koizumi Heiga Zen Haruko Ishikawa Robin Scheibler M. Bacchiani VLM 394 1 0 07 May 2025
Recent Advances in Speech Language Models: A Survey Wenqian Cui Dianzhi Yu Xiaoqi Jiao Ziqiao Meng Guangyan Zhang Qichao Wang Yiwen Guo Irwin King AuLLM 150 24 0 01 Oct 2024
A Comparative Study of Self-supervised Speech Representation Based Voice Conversion Wen-Chin Huang Shu-Wen Yang Tomoki Hayashi Tomoki Toda 44 17 0 10 Jul 2022
Avocodo: Generative Adversarial Network for Artifact-free Vocoder Taejun Bak Junmo Lee Hanbin Bae Jinhyeok Yang Jaesung Bae Young-Sun Joo 57 28 0 27 Jun 2022
BigVGAN: A Universal Neural Vocoder with Large-Scale Training Sang-gil Lee Ming-Yu Liu Boris Ginsburg Bryan Catanzaro Sung-Hoon Yoon 88 251 0 09 Jun 2022
SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping Yuma Koizumi Heiga Zen Kohei Yatabe Nanxin Chen M. Bacchiani DiffM 81 49 0 31 Mar 2022
BDDM: Bilateral Denoising Diffusion Models for Fast and High-Quality Speech Synthesis Max W. Y. Lam Jun Wang Dan Su Dong Yu DiffM 89 96 0 25 Mar 2022
SelfRemaster: Self-Supervised Speech Restoration with Analysis-by-Synthesis Approach Using Channel Modeling Takaaki Saeki Shinnosuke Takamichi Tomohiko Nakamura Naoko Tanji Hiroshi Saruwatari 55 6 0 24 Mar 2022
iSTFTNet: Fast and Lightweight Mel-Spectrogram Vocoder Incorporating Inverse Short-Time Fourier Transform Takuhiro Kaneko Kou Tanaka Hirokazu Kameoka Shogo Seki 51 62 0 04 Mar 2022
Generative Adversarial Networks Gilad Cohen Raja Giryes GAN 280 30,103 0 01 Mar 2022
It's Raw! Audio Generation with State-Space Models Karan Goel Albert Gu Chris Donahue Christopher Ré 55 191 0 20 Feb 2022
InferGrad: Improving Diffusion Models for Vocoder by Considering Inference in Training Zehua Chen Xu Tan Ke Wang Shifeng Pan Danilo Mandic Lei He Sheng Zhao DiffM 47 31 0 08 Feb 2022
DiffGAN-TTS: High-Fidelity and Efficient Text-to-Speech with Denoising Diffusion GANs Songxiang Liu Dan Su Dong Yu DiffM 115 67 0 28 Jan 2022
Tackling the Generative Learning Trilemma with Denoising Diffusion GANs Zhisheng Xiao Karsten Kreis Arash Vahdat DiffM 98 552 0 15 Dec 2021
VoiceFixer: Toward General Speech Restoration with Neural Vocoder Haohe Liu Qiuqiang Kong Qiao Tian Yan Zhao DeLiang Wang Chuanzeng Huang Yuxuan Wang 59 58 0 28 Sep 2021
Translatotron 2: High-quality direct speech-to-speech translation with voice preservation Ye Jia Michelle Tadmor Ramanovich Tal Remez Roi Pomerantz 52 71 0 19 Jul 2021
Direct speech-to-speech translation with discrete units Ann Lee Peng-Jen Chen Changhan Wang Jiatao Gu Sravya Popuri ... Yossi Adi Qing He Yun Tang J. Pino Wei-Ning Hsu 74 189 0 12 Jul 2021
SoundStream: An End-to-End Neural Audio Codec Neil Zeghidour Alejandro Luebs Ahmed Omran Jan Skoglund Marco Tagliasacchi AI4TS 110 791 0 07 Jul 2021
UnivNet: A Neural Vocoder with Multi-Resolution Spectrogram Discriminators for High-Fidelity Waveform Generation Won Jang D. Lim Jaesam Yoon Bongwan Kim Juntae Kim 91 131 0 15 Jun 2021
PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior Sang-gil Lee Heeseung Kim Chaehun Shin Xu Tan Chang-Shu Liu Qi Meng Tao Qin Wei Chen Sung-Hoon Yoon Tie-Yan Liu DiffM 54 89 0 11 Jun 2021
PnG BERT: Augmented BERT on Phonemes and Graphemes for Neural TTS Ye Jia Heiga Zen Jonathan Shen Yu Zhang Yonghui Wu SSL 85 84 0 28 Mar 2021
GAN Vocoder: Multi-Resolution Discriminator Is All You Need J. You Dalhyun Kim Gyuhyeon Nam Geumbyeol Hwang Gyeongsu Chae 49 27 0 09 Mar 2021
Parallel Tacotron: Non-Autoregressive and Controllable TTS Isaac Elias Heiga Zen Jonathan Shen Yu Zhang Ye Jia Ron J. Weiss Yonghui Wu DRL 68 103 0 22 Oct 2020
HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis Jungil Kong Jaehyeon Kim Jaekyoung Bae 177 1,936 0 12 Oct 2020
Non-Attentive Tacotron: Robust and Controllable Neural TTS Synthesis Including Unsupervised Duration Modeling Jonathan Shen Ye Jia Mike Chrzanowski Yu Zhang Isaac Elias Heiga Zen Yonghui Wu 57 112 0 08 Oct 2020
DiffWave: A Versatile Diffusion Model for Audio Synthesis Zhifeng Kong Ming-Yu Liu Jiaji Huang Kexin Zhao Bryan Catanzaro DiffM BDL 155 1,457 0 21 Sep 2020
SEANet: A Multi-modal Speech Enhancement Network Marco Tagliasacchi Yunpeng Li Karolis Misiunas Dominik Roblek 44 72 0 04 Sep 2020
WaveGrad: Estimating Gradients for Waveform Generation Nanxin Chen Yu Zhang Heiga Zen Ron J. Weiss Mohammad Norouzi William Chan DiffM BDL 76 791 0 02 Sep 2020
An Overview of Voice Conversion and its Challenges: From Statistical Modeling to Deep Learning Berrak Sisman Junichi Yamagishi Simon King Haizhou Li BDL 104 322 0 09 Aug 2020
A Spectral Energy Distance for Parallel Speech Synthesis A. Gritsenko Tim Salimans Rianne van den Berg Jasper Snoek Nal Kalchbrenner 42 70 0 03 Aug 2020
Regularization by Denoising via Fixed-Point Projection (RED-PRO) Regev Cohen Michael Elad P. Milanfar 79 107 0 01 Aug 2020
Real Time Speech Enhancement in the Waveform Domain Alexandre Défossez Gabriel Synnaeve Yossi Adi 76 462 0 23 Jun 2020
Denoising Diffusion Probabilistic Models Jonathan Ho Ajay Jain Pieter Abbeel DiffM 642 18,096 0 19 Jun 2020
HiFi-GAN: High-Fidelity Denoising and Dereverberation Based on Speech Deep Features in Adversarial Networks Jiaqi Su Zeyu Jin Adam Finkelstein 67 139 0 10 Jun 2020
FastSpeech 2: Fast and High-Quality End-to-End Text to Speech Yi Ren Chenxu Hu Xu Tan Tao Qin Sheng Zhao Zhou Zhao Tie-Yan Liu 105 1,396 0 08 Jun 2020
Multi-band MelGAN: Faster Waveform Generation for High-Quality Text-to-Speech Geng Yang Shan Yang Kai-Chun Liu Peng Fang Wei Chen Lei Xie 121 199 0 11 May 2020
WaveFlow: A Compact Flow-based Model for Raw Audio Ming-Yu Liu Kainan Peng Kexin Zhao Z. Song 75 117 0 03 Dec 2019
Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram Ryuichi Yamamoto Eunwoo Song Jae-Min Kim 56 818 0 25 Oct 2019
MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis Kundan Kumar Rithesh Kumar T. Boissière L. Gestin Wei Zhen Teoh Jose M. R. Sotelo A. D. Brébisson Yoshua Bengio Aaron Courville GAN 159 953 0 08 Oct 2019
Parametric Resynthesis with neural vocoders Soumi Maiti Michael I. Mandel 40 19 0 16 Jun 2019
Plug-and-Play Methods Provably Converge with Properly Trained Denoisers Ernest K. Ryu Jialin Liu Sicheng Wang Xiaohan Chen Zhangyang Wang W. Yin AI4CE 66 353 0 14 May 2019
Direct speech-to-speech translation with a sequence-to-sequence model Ye Jia Ron J. Weiss Fadi Biadsy Wolfgang Macherey Melvin Johnson Zhiwen Chen Yonghui Wu 85 229 0 12 Apr 2019
LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech Heiga Zen Viet Dang R. Clark Yu Zhang Ron J. Weiss Ye Jia Zhiwen Chen Yonghui Wu 104 954 0 05 Apr 2019
A Real-Time Wideband Neural Vocoder at 1.6 kb/s Using LPCNet J. Valin Jan Skoglund 51 79 0 28 Mar 2019
Deep Griffin-Lim Iteration Yoshiki Masuyama Kohei Yatabe Yuma Koizumi Yasuhiro Oikawa Noboru Harada 78 55 0 10 Mar 2019
WaveGlow: A Flow-based Generative Network for Speech Synthesis R. Prenger Rafael Valle Bryan Catanzaro 151 1,032 0 31 Oct 2018
LPCNet: Improving Neural Speech Synthesis Through Linear Prediction J. Valin Jan Skoglund 68 451 0 28 Oct 2018
Efficient Neural Audio Synthesis Nal Kalchbrenner Erich Elsen Karen Simonyan Seb Noury Norman Casagrande Edward Lockhart Florian Stimberg Aaron van den Oord Sander Dieleman Koray Kavukcuoglu 89 867 0 23 Feb 2018
Adversarial Audio Synthesis Chris Donahue Julian McAuley M. Puckette GAN 141 612 0 12 Feb 2018
Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions Jonathan Shen Ruoming Pang Ron J. Weiss M. Schuster Navdeep Jaitly ... Yuxuan Wang RJ Skerry-Ryan Rif A. Saurous Yannis Agiomyrgiannakis Yonghui Wu 79 2,698 0 16 Dec 2017