WaveGlow: A Flow-based Generative Network for Speech Synthesis

31 October 2018

Papers citing "WaveGlow: A Flow-based Generative Network for Speech Synthesis"

50 / 525 papers shown

Title
DPN-GAN: Inducing Periodic Activations in Generative Adversarial Networks for High-Fidelity Audio Synthesis Zeeshan Ahmad Shudi Bao Meng Chen 20 0 0 14 May 2025
SingNet: Towards a Large-Scale, Diverse, and In-the-Wild Singing Voice Dataset Yicheng Gu Chaoren Wang Jingyang Zhang Xueyao Zhang Zihao Fang Haorui He Zhizheng Wu 32 2 0 14 May 2025
Provably Secure Public-Key Steganography Based on Admissible Encoding Xinsong Zhang Kejiang Chen Na Zhao Wenbo Zhang N. Yu 29 0 0 28 Apr 2025
Mitigating Timbre Leakage with Universal Semantic Mapping Residual Block for Voice Conversion Na Li Chuke Wang Yu Gu Zhifeng Li 59 0 0 11 Apr 2025
Generalized Multilingual Text-to-Speech Generation with Language-Aware Style Adaptation Haowei Lou Hye-Young Paik Sheng Li Wen Hu Lina Yao 48 0 0 11 Apr 2025
P2Mark: Plug-and-play Parameter-level Watermarking for Neural Speech Generation Yong Ren Jiangyan Yi Tao Wang J. Tao Zhengqi Wen Chenxing Li Zheng Lian Ruibo Fu Ye Bai Xiaohui Zhang 62 0 0 07 Apr 2025
Anomaly Detection and Localization for Speech Deepfakes via Feature Pyramid Matching Emma Coletta Davide Salvi Viola Negroni Daniele Ugo Leonzio Paolo Bestagini 67 1 0 23 Mar 2025
Measuring the Robustness of Audio Deepfake Detectors Xiang Li Pin-Yu Chen Wenqi Wei 40 0 0 21 Mar 2025
WaveFM: A High-Fidelity and Efficient Vocoder Based on Flow Matching Tianze Luo Xingchen Miao Wenbo Duan DiffM 42 0 0 20 Mar 2025
UniWav: Towards Unified Pre-training for Speech Representation Learning and Generation Alexander H. Liu Sang-gil Lee Chao-Han Huck Yang Yuan Gong Yu-Chun Wang James Glass Rafael Valle Bryan Catanzaro SSL 55 0 0 02 Mar 2025
Everyday Speech in the Indian Subcontinent Utkarsh Pathak 56 1 0 24 Feb 2025
Less is More for Synthetic Speech Detection in the Wild Ashi Garg Zexin Cai Henry Li Xinyuan Leibny Paola García-Perera Kevin Duh Sanjeev Khudanpur Matthew Wiesner Nicholas Andrews 74 0 0 17 Feb 2025
Memory-Centric Computing: Recent Advances in Processing-in-DRAM O. Mutlu Ataberk Olgun Geraldo F. Oliveira Ismail Emir Yüksel 49 5 0 26 Dec 2024
ESTVocoder: An Excitation-Spectral-Transformed Neural Vocoder Conditioned on Mel Spectrogram Xiao-Hang Jiang Hui-Peng Du Yang Ai Ye-Xin Lu Zhen-Hua Ling 30 0 0 18 Nov 2024
Wavehax: Aliasing-Free Neural Waveform Synthesis Based on 2D Convolution and Harmonic Prior for Reliable Complex Spectrogram Estimation Reo Yoneyama Atsushi Miyashita Ryuichi Yamamoto T. Toda 27 1 0 11 Nov 2024
Large Generative Model-assisted Talking-face Semantic Communication System Feibo Jiang Siwei Tu Li Dong Cunhua Pan Jiangzhou Wang Xiaohu You 36 2 0 06 Nov 2024
RDSinger: Reference-based Diffusion Network for Singing Voice Synthesis Kehan Sui Jinxu Xiang Fang Jin DiffM 26 0 0 29 Oct 2024
Mitigating Unauthorized Speech Synthesis for Voice Protection Zhisheng Zhang Qianyi Yang Derui Wang Pengyang Huang Yuxin Cao Kai Ye Jie Hao AAML 27 3 0 28 Oct 2024
Evolutionary Retrofitting Mathurin Videau M. Zameshina Alessandro Leite Laurent Najman Marc Schoenauer O. Teytaud 41 0 0 15 Oct 2024
Recent Advances in Speech Language Models: A Survey Wenqian Cui Dianzhi Yu Xiaoqi Jiao Ziqiao Meng Guangyan Zhang Qichao Wang Yiwen Guo Irwin King AuLLM 61 14 0 01 Oct 2024
HiFi-Glot: Neural Formant Synthesis with Differentiable Resonant Filters Lauri Juvela Pablo Pérez Zarazaga G. Henter Zofia Malisz 32 0 0 23 Sep 2024
SpoofCeleb: Speech Deepfake Detection and SASV In The Wild Jee-weon Jung Yihan Wu Xin Wang Ji-Hoon Kim Soumi Maiti ... Joon Son Chung Wangyou Zhang Seyun Um Shinnosuke Takamichi Shinji Watanabe 68 1 0 18 Sep 2024
Stutter-Solver: End-to-end Multi-lingual Dysfluency Detection Xuanru Zhou Cheol Jun Cho Ayati Sharma Brittany Morin D. Baquirin ... Zachary Miller B. Tee M. G. Tempini Jiachen Lian Gopala Anumanchipalli 34 3 0 15 Sep 2024
INN-PAR: Invertible Neural Network for PPG to ABP Reconstruction Soumitra Kundu Gargi Panda Saumik Bhattacharya Aurobinda Routray Rajlakshmi Guha 47 0 0 13 Sep 2024
Enhancing Kurdish Text-to-Speech with Native Corpus Training: A High-Quality WaveGlow Vocoder Approach Abdulhady Abas Abdullah Sabat Salih Muhamad Hadi Veisi 20 0 0 10 Sep 2024
PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation Sang-Hoon Lee Ha-Yeong Choi Seong-Whan Lee OOD DiffM AI4TS 53 5 0 14 Aug 2024
VNet: A GAN-based Multi-Tier Discriminator Network for Speech Synthesis Vocoders Yubing Cao Yongming Li Liejun Wang Yinfeng Yu 25 0 0 13 Aug 2024
Automatic Voice Identification after Speech Resynthesis using PPG Thibault Gaudier Marie Tahon Anthony Larcher Yannick Esteve 48 0 0 05 Aug 2024
LDFaceNet: Latent Diffusion-based Network for High-Fidelity Deepfake Generation Dwij Mehta Aditya Mehta Pratik Narang DiffM 53 0 0 04 Aug 2024
Entropy-Informed Weighting Channel Normalizing Flow Wei Chen Shian Du Shigui Li Delu Zeng John Paisley 37 0 0 06 Jul 2024
SPEAR: Receiver-to-Receiver Acoustic Neural Warping Field Yuhang He Shitong Xu Jia-Xing Zhong Sangyun Shin Niki Trigoni Andrew Markham 38 0 0 16 Jun 2024
How Should We Extract Discrete Audio Tokens from Self-Supervised Models? Pooneh Mousavi J. Duret Salah Zaiem Luca Della Libera Artem Ploujnikov Cem Subakan Mirco Ravanelli 42 9 0 15 Jun 2024
Toward Fully-End-to-End Listened Speech Decoding from EEG Signals Jihwan Lee Aditya Kommineni Tiantian Feng Kleanthis Avramidis Xuan Shi Sudarsana Reddy Kadiri Shrikanth Narayanan 36 1 0 12 Jun 2024
JenGAN: Stacked Shifted Filters in GAN-Based Speech Synthesis Hyunjae Cho Junhyeok Lee Wonbin Jung 21 0 0 10 Jun 2024
Differentiable Time-Varying Linear Prediction in the Context of End-to-End Analysis-by-Synthesis Chin-Yun Yu Gyorgy Fazekas 34 1 0 07 Jun 2024
A Survey of Deep Learning Audio Generation Methods Matej Bozic Marko Horvat VLM MedIm 61 0 0 31 May 2024
FastSAG: Towards Fast Non-Autoregressive Singing Accompaniment Generation Jianyi Chen Wei Xue Xu Tan Zhen Ye Qi-fei Liu Yi-Ting Guo 50 2 0 13 May 2024
The Codecfake Dataset and Countermeasures for the Universally Detection of Deepfake Audio Yuankun Xie Yi Lu Ruibo Fu Zhengqi Wen Zhiyong Wang ... Xiaopeng Wang Yukun Liu Haonan Cheng Long Ye Yi Sun 47 15 0 08 May 2024
HILCodec: High Fidelity and Lightweight Neural Audio Codec S. Ahn Beom Jun Woo Mingrui Han Chanyeong Moon Nam Soo Kim 34 6 0 08 May 2024
An Investigation of Time-Frequency Representation Discriminators for High-Fidelity Vocoder Yicheng Gu Xueyao Zhang Liumeng Xue Haizhou Li Zhizheng Wu 28 2 0 26 Apr 2024
Music Style Transfer With Diffusion Model Hong Huang Yuyi Wang Luyao Li Jun Lin DiffM 24 0 0 23 Apr 2024
Variational Bayesian Optimal Experimental Design with Normalizing Flows Jiayuan Dong Christian L. Jacobsen Mehdi Khalloufi Maryam Akram Wanjiao Liu Karthik Duraisamy Xun Huan BDL 54 5 0 08 Apr 2024
Training Generative Adversarial Network-Based Vocoder with Limited Data Using Augmentation-Conditional Discriminator Takuhiro Kaneko Hirokazu Kameoka Kou Tanaka 29 0 0 25 Mar 2024
VoxGenesis: Unsupervised Discovery of Latent Speaker Manifold for Speech Synthesis Wei-wei Lin Chenhang He Man-Wai Mak Jiachen Lian Kong Aik Lee DiffM 41 0 0 01 Mar 2024
An Automated End-to-End Open-Source Software for High-Quality Text-to-Speech Dataset Generation Ahmet Gunduz K. Yuksel Kareem Darwish Golara Javadi Fabio Minazzi Nicola Sobieski Sebastien Bratieres 25 0 0 26 Feb 2024
PeriodGrad: Towards Pitch-Controllable Neural Vocoder Based on a Diffusion Probabilistic Model Yukiya Hono Kei Hashimoto Yoshihiko Nankaku Keiichi Tokuda DiffM 35 2 0 22 Feb 2024
Speaking in Wavelet Domain: A Simple and Efficient Approach to Speed up Speech Diffusion Model Xiangyu Zhang Daijiao Liu Hexin Liu Qiquan Zhang Hanyu Meng Leibny Paola García Chng Eng Siong Lina Yao DiffM 25 3 0 16 Feb 2024
GLA-Grad: A Griffin-Lim Extended Waveform Generation Diffusion Model Haocheng Liu Teysir Baoueb Mathieu Fontaine Jonathan Le Roux Gaël Richard 37 4 0 09 Feb 2024
EVA-GAN: Enhanced Various Audio Generation via Scalable Generative Adversarial Networks Shijia Liao Shiyi Lan Arun George Zachariah 21 1 0 31 Jan 2024
SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and Music Synthesis Teysir Baoueb Haocheng Liu Mathieu Fontaine Jonathan Le Roux Gaël Richard DiffM 27 5 0 30 Jan 2024