v1v2 (latest)

WaveNet: A Generative Model for Raw Audio

12 September 2016

Papers citing "WaveNet: A Generative Model for Raw Audio"

50 / 3,082 papers shown

Title
TechSinger: Technique Controllable Multilingual Singing Voice Synthesis via Flow Matching Wenxiang Guo Yu Zhang Changhao Pan Rongjie Huang Li Tang Ruiqi Li Zhiqing Hong Yongqi Wang Zhou Zhao 275 4 0 18 Feb 2025
Vision-Enhanced Time Series Forecasting via Latent Diffusion Models Weilin Ruan Siru Zhong Haomin Wen Yuxuan Liang AI4TS 143 1 0 16 Feb 2025
Occlusion-aware Text-Image-Point Cloud Pretraining for Open-World 3D Object Recognition Khanh Nguyen Ghulam Mubashar Hassan Ajmal Mian 3DPC 90 0 0 15 Feb 2025
Harnessing Vision Models for Time Series Analysis: A Survey Jingchao Ni Ziming Zhao ChengAo Shen Hanghang Tong Dongjin Song Wei Cheng Dongsheng Luo Haifeng Chen AI4TS 180 6 0 13 Feb 2025
Hookpad Aria: A Copilot for Songwriters Chris Donahue Shih-Lun Wu Yewon Kim Dave Carlton Ryan Miyakawa John Thickstun 118 1 0 12 Feb 2025
What makes a good feedforward computational graph? Alex Vitvitskyi J. G. Araújo Marc Lackenby Petar Velickovic 131 3 0 10 Feb 2025
Investigating Compositional Reasoning in Time Series Foundation Models Willa Potosnak Cristian Challu Mononito Goswami Kin G. Olivares Michał Wiliński Nina Żukowska Artur Dubrawski ReLM AI4TS LRM 127 2 0 09 Feb 2025
Sequence models for continuous cell cycle stage prediction from brightfield images Louis-Alexandre Leger Maxine Leonardi Andrea Salati Felix Naef Martin Weigert 105 1 0 04 Feb 2025
Statistical Inference for Generative Model Comparison Zijun Gao Yan Sun 205 0 0 31 Jan 2025
VoicePrompter: Robust Zero-Shot Voice Conversion with Voice Prompt and Conditional Flow Matching Ha-Yeong Choi Jaehan Park 169 0 0 29 Jan 2025
Towards Scalable and Stable Parallelization of Nonlinear RNNs Xavier Gonzalez Andrew Warrington Jimmy T.H. Smith Scott W. Linderman 290 11 0 17 Jan 2025
Explore the Use of Time Series Foundation Model for Car-Following Behavior Analysis Luwei Zeng Runze Yan AI4TS 84 0 0 13 Jan 2025
Likelihood Training of Cascaded Diffusion Models via Hierarchical Volume-preserving Maps Henry Li Ronen Basri Y. Kluger DiffM 146 2 0 13 Jan 2025
ARES: Auxiliary Range Expansion for Outlier Synthesis Eui-Soo Jung Hae-Hun Seo Hyun-Woo Jung Je-Geon Oh Yoon-Yeong Kim OODD 126 0 0 11 Jan 2025
Using Pre-trained LLMs for Multivariate Time Series Forecasting Malcolm Wolff Shenghao Yang Kari Torkkola Michael W. Mahoney AI4TS AIFin 85 2 0 10 Jan 2025
Neural Speech and Audio Coding: Modern AI Technology Meets Traditional Codecs Minje Kim Jan Skoglund 97 2 0 08 Jan 2025
STContext: A Multifaceted Dataset for Developing Context-aware Spatio-temporal Crowd Mobility Prediction Models Liyue Chen Jiangyi Fang Tengfei Liu Fangyuan Gao Leye Wang AI4TS 114 1 0 08 Jan 2025
TOTEM: TOkenized Time Series EMbeddings for General Time Series Analysis Sabera Talukder Yisong Yue Georgia Gkioxari AI4TS 145 14 0 03 Jan 2025
Text2Data: Low-Resource Data Generation with Textual Control Shiyu Wang Yihao Feng Tian Lan Ning Yu Yu Bai Ran Xu Han Wang Caiming Xiong Siyang Song DiffM 154 0 0 03 Jan 2025
Simultaneous Music Separation and Generation Using Multi-Track Latent Diffusion Models Tornike Karchkhadze M. Izadi Shlomo Dubnov DiffM 86 5 0 31 Dec 2024
CrossSpeech++: Cross-lingual Speech Synthesis with Decoupled Language and Speaker Generation Ji-Hoon Kim Hong-Sun Yang Yoon-Cheol Ju Il-Hwan Kim Byeong-Yeol Kim Joon Son Chung BDL 120 0 0 31 Dec 2024
Memory-Centric Computing: Recent Advances in Processing-in-DRAM O. Mutlu Ataberk Olgun Geraldo F. Oliveira Ismail Emir Yüksel 121 6 0 26 Dec 2024
Synthetic Time Series Data Generation for Healthcare Applications: A PCG Case Study Ainaz Jamshidi M. Arif Sabir Ali Kalhoro Alexander Gelbukh MedIm 109 1 0 17 Dec 2024
Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree Xiangxiang Gao Weisheng Xie Yiwei Xiang Feng Ji 236 6 0 17 Dec 2024
Learning Latent Spaces for Domain Generalization in Time Series Forecasting Songgaojun Deng Maarten de Rijke CML AI4TS OOD BDL 129 0 0 15 Dec 2024
Speech-Forensics: Towards Comprehensive Synthetic Speech Dataset Establishment and Analysis Zhoulin Ji Chenhao Lin Hang Wang Chao Shen 170 1 0 12 Dec 2024
Non-Normal Diffusion Models Henry Li VLM DiffM 151 1 0 10 Dec 2024
Improving Source Extraction with Diffusion and Consistency Models Tornike Karchkhadze M. Izadi Shuo Zhang DiffM 147 1 0 09 Dec 2024
LMDM:Latent Molecular Diffusion Model For 3D Molecule Generation Xiang Chen DiffM 121 0 0 05 Dec 2024
Deep Learning Modeling Method for RF Devices Based on Uniform Noise Training Set Zhaokun Hu Yindong Xiao Houjun Wang Jiayong Yu Zihang Gao 82 0 0 05 Dec 2024
DiffStyleTTS: Diffusion-based Hierarchical Prosody Modeling for Text-to-Speech with Diverse and Controllable Styles Jiaxuan Liu Zhaoci Liu Yihan Hu Yingying Gao Shilei Zhang Zhenhua Ling DiffM 115 2 0 04 Dec 2024
Deep Learning-Based Approach for Identification and Compensation of Nonlinear Distortions in Parametric Array Loudspeakers Mengtong Li Tao Zhuang Kai-Jyun Chen Jia-Xin Zhong Jing Lu 83 0 0 02 Dec 2024
Machine Learning Analysis of Anomalous Diffusion Wenjie Cai Yi Hu X. Qu Hui Zhao Gongyi Wang Jing Li Zihan Huang 130 1 0 02 Dec 2024
Schedule On the Fly: Diffusion Time Prediction for Faster and Better Image Generation Zilyu Ye Zhiyang Chen Tiancheng Li Zemin Huang Weijian Luo Guo-Jun Qi DiffM 132 6 0 02 Dec 2024
Scaling Transformers for Low-Bitrate High-Quality Speech Coding Julian Parker Anton Smirnov Jordi Pons CJ Carr Zack Zukowski Zach Evans Xubo Liu 123 16 0 29 Nov 2024
Continuous Autoregressive Models with Noise Augmentation Avoid Error Accumulation Marco Pasini J. Nistal Stefan Lattner George Fazekas 113 3 0 27 Nov 2024
Disentangling the Complex Multiplexed DIA Spectra in De Novo Peptide Sequencing Zheng Ma Zeping Mao Ruixue Zhang Jiazhen Chen L. Xin Paul Shan A. Ghodsi Ming Li 96 0 0 24 Nov 2024
Nd-BiMamba2: A Unified Bidirectional Architecture for Multi-Dimensional Data Processing Hao Liu Mamba AI4CE 151 2 0 22 Nov 2024
VQalAttent: a Transparent Speech Generation Pipeline based on Transformer-learned VQ-VAE Latent Space Armani Rodriguez S. Kokalj-Filipovic 101 1 0 22 Nov 2024
ESTVocoder: An Excitation-Spectral-Transformed Neural Vocoder Conditioned on Mel Spectrogram Xiao-Hang Jiang Hui-Peng Du Yang Ai Ye-Xin Lu Zhen-Hua Ling 81 0 0 18 Nov 2024
Multi-scale Generative Modeling for Fast Sampling Xiongye Xiao Shixuan Li Luzhe Huang Gengshuo Liu Trung-Kien Nguyen Yi Huang Di Chang Mykel J. Kochenderfer Paul Bogdan DiffM 75 1 0 14 Nov 2024
Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation Kuiyuan Zhang Zhongyun Hua Yushu Zhang Yifang Guo Tao Xiang 59 3 0 14 Nov 2024
Building a Taiwanese Mandarin Spoken Language Model: A First Attempt Chih-Kai Yang Yu-Kuan Fu Chen-An Li Yi-Cheng Lin Yu-Xiang Lin ... Ulin Sanga Xuanjun Chen Po-Chun Hsu Shu-Wen Yang Hung-yi Lee AuLLM 99 5 0 11 Nov 2024
Wavehax: Aliasing-Free Neural Waveform Synthesis Based on 2D Convolution and Harmonic Prior for Reliable Complex Spectrogram Estimation Reo Yoneyama Atsushi Miyashita Ryuichi Yamamoto Tomoki Toda 70 2 0 11 Nov 2024
Few-Shot Task Learning through Inverse Generative Modeling Aviv Netanyahu Yilun Du Antonia Bronars Jyothish Pari J. Tenenbaum Tianmin Shu Pulkit Agrawal 135 4 0 07 Nov 2024
Multivariate Data Augmentation for Predictive Maintenance using Diffusion Andrew Thompson Alexander Sommers Alicia Russell-Gilbert Logan Cummins Sudip Mittal Shahram Rahimi Maria Seale Joseph Jaboure Thomas Arnold Joshua Church DiffM 76 0 0 06 Nov 2024
Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis Mohammad Zbeeb Mohammad Ghorayeb Mariam Salman 135 0 0 04 Nov 2024
CleAR: Robust Context-Guided Generative Lighting Estimation for Mobile Augmented Reality Yiqin Zhao Mallesham Dasari Tian Guo 121 0 0 04 Nov 2024
Sing-On-Your-Beat: Simple Text-Controllable Accompaniment Generations Quoc-Huy Trinh Minh-Van Nguyen Trong-Hieu Nguyen-Mau Khoa Tran Thanh Do 56 0 0 03 Nov 2024
Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis Shijia Liao Yanjie Wang Tianyu Li Yifan Cheng Ruoyi Zhang Rongzhi Zhou Yijin Xing AuLLM 75 17 0 02 Nov 2024