BigVGAN: A Universal Neural Vocoder with Large-Scale Training

9 June 2022

Boris Ginsburg

Papers citing "BigVGAN: A Universal Neural Vocoder with Large-Scale Training"

45 / 45 papers shown

Title
DPN-GAN: Inducing Periodic Activations in Generative Adversarial Networks for High-Fidelity Audio Synthesis Zeeshan Ahmad Shudi Bao Meng Chen 20 0 0 14 May 2025
Multi-band Frequency Reconstruction for Neural Psychoacoustic Coding Dianwen Ng Kun Zhou Yi-Wen Chao Zhiwei Xiong B. Ma E. Chng 33 0 0 12 May 2025
Lightweight End-to-end Text-to-speech Synthesis for low resource on-device applications Biel Tura Vecino Adam Gabry's Daniel Mątwicki Andrzej Pomirski Tom Iddon Marius Cotescu Jaime Lorenzo-Trueba 42 3 0 12 May 2025
Versatile Framework for Song Generation with Prompt-based Control Wenjie Qu Wenxiang Guo Changhao Pan Zehan Zhu Ruiqi Li ... Rongjie Huang Ruiyuan Zhang Zhiqing Hong Ziyue Jiang Zhou Zhao 77 1 0 27 Apr 2025
Kimi-Audio Technical Report KimiTeam Ding Ding Zeqian Ju Yichong Leng Shixuan Liu ... Zhengyuan Yang Aoxiong Yin Ruibin Yuan Wenjie Qu Zaida Zhou AuLLM VLM 110 5 0 25 Apr 2025
SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning Prabhat Pandey R. Swaminathan K V Vijay Girish Arunasish Sen Jian Xie Grant P. Strimel Andreas Schwarz 158 0 0 12 Apr 2025
P2Mark: Plug-and-play Parameter-level Watermarking for Neural Speech Generation Yong Ren Jiangyan Yi Tao Wang J. Tao Zhengqi Wen Chenxing Li Zheng Lian Ruibo Fu Ye Bai Xiaohui Zhang 58 0 0 07 Apr 2025
Less is More for Synthetic Speech Detection in the Wild Ashi Garg Zexin Cai Henry Li Xinyuan Leibny Paola García-Perera Kevin Duh Sanjeev Khudanpur Matthew Wiesner Nicholas Andrews 74 0 0 17 Feb 2025
Everyone-Can-Sing: Zero-Shot Singing Voice Synthesis and Conversion with Speech Reference Shuqi Dai Yunyun Wang Roger B. Dannenberg Zeyu Jin DiffM 59 0 0 23 Jan 2025
Why disentanglement-based speaker anonymization systems fail at preserving emotions? Ünal Ege Gaznepoglu Nils Peters 85 0 0 22 Jan 2025
FlashSR: One-step Versatile Audio Super-resolution via Diffusion Distillation Jaekwon Im Juhan Nam DiffM 45 0 0 18 Jan 2025
FlowSep: Language-Queried Sound Separation with Rectified Flow Matching Yi Yuan Xubo Liu Haohe Liu Mark D. Plumbley Wenwu Wang 52 3 0 10 Jan 2025
MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis Ho Kei Cheng Masato Ishii Akio Hayakawa Takashi Shibuya A. Schwing Yuki Mitsufuji VGen 126 12 0 19 Dec 2024
Multi-modal and Multi-scale Spatial Environment Understanding for Immersive Visual Text-to-Speech Rui Liu Shuwei He Yifan Hu Hong Li VLM 87 1 0 16 Dec 2024
EmoDubber: Towards High Quality and Emotion Controllable Movie Dubbing Gaoxiang Cong Jiadong Pan Liang-Sheng Li Yuankai Qi Yuxin Peng Anton Van Den Hengel Jian Yang Qingming Huang 92 6 0 12 Dec 2024
EmoSphere++: Emotion-Controllable Zero-Shot Text-to-Speech via Emotion-Adaptive Spherical Vector Deok-Hyeon Cho Hyung-Seok Oh Seung-Bin Kim Seong-Whan Lee 46 4 0 04 Nov 2024
SF-Speech: Straightened Flow for Zero-Shot Voice Clone Xuyuan Li Zengqiang Shang Hua Hua Peiyang Shi Chen Yang Li Wang Pengyuan Zhang 47 2 0 16 Oct 2024
Code Drift: Towards Idempotent Neural Audio Codecs P. O'Reilly Prem Seetharaman Jiaqi Su Zeyu Jin Bryan Pardo 143 0 0 14 Oct 2024
Recent Advances in Speech Language Models: A Survey Wenqian Cui Dianzhi Yu Xiaoqi Jiao Ziqiao Meng Guangyan Zhang Qichao Wang Yiwen Guo Irwin King AuLLM 61 14 0 01 Oct 2024
FlowMAC: Conditional Flow Matching for Audio Coding at Low Bit Rates N. Pia Martin Strauss M. Multrus B. Edler 42 0 0 26 Sep 2024
A Comprehensive Survey with Critical Analysis for Deepfake Speech Detection Lam Pham Phat Lam Dat Tran Hieu Tang Tin Nguyen Alexander Schindler Canh Vu Alexander Polonsky Canh Vu 56 3 0 23 Sep 2024
AudioComposer: Towards Fine-grained Audio Generation with Natural Language Descriptions Yishuo Wang Hangting Chen Dongchao Yang Zhiyong Wu Xixin Wu DiffM 45 2 0 19 Sep 2024
SpoofCeleb: Speech Deepfake Detection and SASV In The Wild Jee-weon Jung Yihan Wu Xin Wang Ji-Hoon Kim Soumi Maiti ... Joon Son Chung Wangyou Zhang Seyun Um Shinnosuke Takamichi Shinji Watanabe 65 1 0 18 Sep 2024
E1 TTS: Simple and Fast Non-Autoregressive TTS Zhijun Liu Shuai Wang Pengcheng Zhu Mengxiao Bi Haizhou Li VLM DiffM 38 3 0 14 Sep 2024
FireRedTTS: A Foundation Text-To-Speech Framework for Industry-Level Generative Speech Applications Hao-Han Guo Kun Liu Fei-Yu Shen Yi-Chen Wu Xu Tang Kun Xie Kai-Tuo Xu Kun Xie Kai-Tuo Xu 42 21 0 05 Sep 2024
TokSing: Singing Voice Synthesis based on Discrete Tokens Yuning Wu Chunlei Zhang Jiatong Shi Yuxun Tang Shan Yang Qin Jin 39 6 0 12 Jun 2024
StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis Yu Zhang Rongjie Huang Ruiqi Li Jinzheng He Yan Xia Feiyang Chen Xinyu Duan Baoxing Huai Zhou Zhao VLM 26 17 0 17 Dec 2023
Amphion: An Open-Source Audio, Music and Speech Generation Toolkit Xueyao Zhang Liumeng Xue Yicheng Gu Yuancheng Wang Haorui He ... Mingxuan Wang Jun Han Kai Chen Haizhou Li Zhizheng Wu 29 26 0 15 Dec 2023
An Initial Investigation of Neural Replay Simulator for Over-the-Air Adversarial Perturbations to Automatic Speaker Verification Jiaqi Li Li Wang Liumeng Xue Lei Wang Zhizheng Wu AAML 27 3 0 09 Oct 2023
SnakeGAN: A Universal Vocoder Leveraging DDSP Prior Knowledge and Periodic Inductive Bias Sipan Li Songxiang Liu Lu Zhang Xiang Li Yanyao Bian Chao Weng Zhiyong Wu Helen Meng 36 2 0 14 Sep 2023
Matcha-TTS: A fast TTS architecture with conditional flow matching Shivam Mehta Ruibo Tu Jonas Beskow Éva Székely G. Henter 24 69 0 06 Sep 2023
ViT-TTS: Visual Text-to-Speech with Scalable Diffusion Transformer Huadai Liu Rongjie Huang Xuan Lin Wenqiang Xu Maozong Zheng Hong Chen Jinzheng He Zhou Zhao DiffM 39 20 0 22 May 2023
Data Redaction from Conditional Generative Models Zhifeng Kong Kamalika Chaudhuri KELM 16 7 0 18 May 2023
FastFit: Towards Real-Time Iterative Neural Vocoder by Replacing U-Net Encoder With Multiple STFTs Won Jang D. Lim Heayoung Park 27 1 0 18 May 2023
Cross-domain Neural Pitch and Periodicity Estimation Max Morrison Caedon Hsieh Nathan Pruyne Bryan Pardo 18 17 0 28 Jan 2023
ResGrad: Residual Denoising Diffusion Probabilistic Models for Text to Speech Ze Chen Yihan Wu Yichong Leng Jiawei Chen Haohe Liu ... Ke Wang Lei He Sheng Zhao Jiang Bian Danilo Mandic DiffM 32 22 0 30 Dec 2022
GANStrument: Adversarial Instrument Sound Synthesis with Pitch-invariant Instance Conditioning Gaku Narita Junichi Shimizu Taketo Akama GAN 23 11 0 10 Nov 2022
WaveFit: An Iterative and Non-autoregressive Neural Vocoder based on Fixed-Point Iteration Yuma Koizumi Kohei Yatabe Heiga Zen M. Bacchiani DiffM 42 29 0 03 Oct 2022
VocBench: A Neural Vocoder Benchmark for Speech Synthesis Ehab A. AlBadawy Andrew Gibiansky Qing He Jilong Wu Ming-Ching Chang Siwei Lyu 20 12 0 06 Dec 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 255 4,781 0 24 Feb 2021
Universal Neural Vocoding with Parallel WaveNet Yunlong Jiao Adam Gabry's Georgi Tinchev Bartosz Putrycz Daniel Korzekwa V. Klimkov 36 42 0 01 Feb 2021
High Fidelity Speech Synthesis with Adversarial Networks Mikolaj Binkowski Jeff Donahue Sander Dieleman Aidan Clark Erich Elsen Norman Casagrande Luis C. Cobo Karen Simonyan 235 239 0 25 Sep 2019
A scalable noisy speech dataset and online subjective test framework Chandan K. A. Reddy Ebrahim Beyrami Jamie Pool Ross Cutler Sriram Srinivasan J. Gehrke 72 143 0 17 Sep 2019
NeMo: a toolkit for building AI applications using Neural Modules Oleksii Kuchaiev Jason Chun Lok Li Huyen Nguyen Oleksii Hrinchuk Ryan Leary ... Jack Cook P. Castonguay Mariya Popova Jocelyn Huang Jonathan M. Cohen 211 292 0 14 Sep 2019
Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis Ye Jia Yu Zhang Ron J. Weiss Quan Wang Jonathan Shen ... Z. Chen Patrick Nguyen Ruoming Pang Ignacio López Moreno Yonghui Wu 207 820 0 12 Jun 2018