v1v2 (latest)

WaveNet: A Generative Model for Raw Audio

12 September 2016

Papers citing "WaveNet: A Generative Model for Raw Audio"

50 / 3,082 papers shown

Title
EXPRTS: Exploring and Probing the Robustness of Time Series Forecasting Models Haakon Hanisch Kjaernli Lluis Mas-Ribas Hans Jakob Håland Gleb Sizov Aida Ashrafi Helge Langseth Odd Erik Gundersen AI4TS 125 0 0 01 Jul 2025
Compliant Residual DAgger: Improving Real-World Contact-Rich Manipulation with Human Corrections Xiaomeng Xu Yifan Hou Zeyi Liu Shuran Song 10 0 0 20 Jun 2025
TD3Net: A Temporal Densely Connected Multi-Dilated Convolutional Network for Lipreading B. Lee Wooseok Shin Sung Won Han 27 0 0 19 Jun 2025
Towards Bitrate-Efficient and Noise-Robust Speech Coding with Variable Bitrate RVQ Yunkee Chae Kyogu Lee 23 0 0 19 Jun 2025
Streaming Non-Autoregressive Model for Accent Conversion and Pronunciation Improvement Tuan-Nam Nguyen Ngoc-Quan Pham Seymanur Akti Alexander Waibel 21 0 0 19 Jun 2025
Over-squashing in Spatiotemporal Graph Neural Networks Ivan Marisca Jacob Bamberger Cesare Alippi Michael M. Bronstein 42 0 0 18 Jun 2025
Instance-Specific Test-Time Training for Speech Editing in the Wild Taewoo Kim Uijong Lee H. Park Choongsang Cho Nam In Park Young Han Lee 24 0 0 16 Jun 2025
PRO: Projection Domain Synthesis for CT Imaging Kang Chen Bin Huang Xuebin Yang Junyan Zhang Qiegen Liu DiffM MedIm 34 0 0 16 Jun 2025
Forecast-Then-Optimize Deep Learning Methods Jinhang Jiang Nan Wu Ben Liu Mei Feng Xin Ji Karthik Srinivasan AI4TS 27 0 0 16 Jun 2025
A Review of the Long Horizon Forecasting Problem in Time Series Analysis Hans Krupakar Kandappan V A AI4TS 22 0 0 15 Jun 2025
ANIRA: An Architecture for Neural Network Inference in Real-Time Audio Applications Valentin Ackva Fares Schulz 28 1 0 14 Jun 2025
Dynamic Sparse Training of Diagonally Sparse Networks Abhishek Tyagi Arjun Iyer William H Renninger Christopher Kanan Yuhao Zhu 15 0 0 13 Jun 2025
TCN-DPD: Parameter-Efficient Temporal Convolutional Networks for Wideband Digital Predistortion Huanqiang Duan Manno Versluis Qinyu Chen Leo C. N. de Vreede Chang Gao 15 0 0 13 Jun 2025
Sequential-Parallel Duality in Prefix Scannable Models Morris Yau Sharut Gupta Valerie Engelmayer Kazuki Irie Stefanie Jegelka Jacob Andreas 122 0 0 12 Jun 2025
Abstraction-Based Proof Production in Formal Verification of Neural Networks Y. Elboher Omri Isac Guy Katz Tobias Ladner Haoze Wu 69 0 0 11 Jun 2025
Superposed Parameterised Quantum Circuits Viktoria Patapovich Mo Kordzanganeh A. Melnikov 23 0 0 10 Jun 2025
A Review on Score-based Generative Models for Audio Applications Ge Zhu Yutong Wen Zhiyao Duan DiffM MedIm 39 0 0 10 Jun 2025
SynHate: Detecting Hate Speech in Synthetic Deepfake Audio Rishabh Ranjan Kishan Pipariya Mayank Vatsa Richa Singh 15 0 0 07 Jun 2025
Numerical Investigation of Sequence Modeling Theory using Controllable Memory Functions Haotian Jiang Zeyu Bao Shida Wang Qianxiao Li 41 0 0 06 Jun 2025
The cost of ensembling: is it always worth combining? Marco Zanotti AI4TS 145 1 0 05 Jun 2025
Kinship in Speech: Leveraging Linguistic Relatedness for Zero-Shot TTS in Indian Languages Utkarsh Pathak Chandra Sai Krishna Gunda Anusha Prakash Keshav Agarwal Hema A. Murthy 68 0 0 04 Jun 2025
The Promise of Spiking Neural Networks for Ubiquitous Computing: A Survey and New Perspectives Hemanth Sabbella Archit Mukherjee Thivya Kandappu Sounak Dey Arpan Pal Archan Misra Dong Ma AI4TS 65 0 0 02 Jun 2025
DiffDSR: Dysarthric Speech Reconstruction Using Latent Diffusion Model Xueyuan Chen Dongchao Yang Wenxuan Wu Minglin Wu Jing Xu Xixin Wu Zhiyong Wu Helen M. Meng DiffM 36 0 0 31 May 2025
Efficient Neural and Numerical Methods for High-Quality Online Speech Spectrogram Inversion via Gradient Theorem Andres Fernandez Juan Azcarreta Cagdas Bilen Jesus Monge Alvarez 37 0 0 30 May 2025
A Survey of Generative Categories and Techniques in Multimodal Large Language Models Longzhen Han Awes Mubarak Almas Baimagambetov Nikolaos Polatidis Thar Baker LRM 51 0 0 29 May 2025
MGE-LDM: Joint Latent Diffusion for Simultaneous Music Generation and Source Extraction Yunkee Chae Kyogu Lee 64 0 0 29 May 2025
A Linguistically Motivated Analysis of Intonational Phrasing in Text-to-Speech Systems: Revealing Gaps in Syntactic Sensitivity Charlotte Pouw Afra Alishahi Willem H. Zuidema 28 0 0 28 May 2025
BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models Susan Liang Dejan Marković I. D. Gebru Steven Krenn Todd Keebler Jacob Sandakly Frank Yu Samuel Hassel Chenliang Xu Alexander Richard 59 0 0 28 May 2025
Versatile Cardiovascular Signal Generation with a Unified Diffusion Transformer Zehua Chen Yuyang Miao L. Wang Luyun Fan Danilo Mandic Jun Zhu DiffM MedIm 60 0 0 28 May 2025
SpeechVerifier: Robust Acoustic Fingerprint against Tampering Attacks via Watermarking Lingfeng Yao Chenpei Huang Shengyao Wang Junpei Xue Hanqing Guo Jiang Liu Xun Chen Miao Pan 26 0 0 28 May 2025
VibE-SVC: Vibrato Extraction with High-frequency F0 Contour for Singing Voice Conversion Joon-Seung Choi Dong-Min Byun Hyung-Seok Oh Seong-Whan Lee 86 0 0 27 May 2025
DiffNMR: Advancing Inpainting of Randomly Sampled Nuclear Magnetic Resonance Signals Sen Yan Fabrizio Gabellieri Etienne Goffinet Filippo Castiglione Thomas Launey DiffM MedIm 44 1 0 26 May 2025
Audio-to-Audio Emotion Conversion With Pitch And Duration Style Transfer Soumya Dutta Avni Jain Sriram Ganapathy 119 0 0 23 May 2025
CAMME: Adaptive Deepfake Image Detection with Multi-Modal Cross-Attention Naseem Khan Tuan Nguyen Amine Bermak Issa Khalil 280 0 0 23 May 2025
Wavelet Probabilistic Recurrent Convolutional Network for Multivariate Time Series Classification Pu Yang J. A. Barria AI4TS 37 0 0 22 May 2025
Learning-based Airflow Inertial Odometry for MAVs using Thermal Anemometers in a GPS and vision denied environment Ze Wang Jingang Qu Zhenyu Gao Pascal Morin 31 0 0 21 May 2025
Generative AI for Autonomous Driving: A Review Katharina Winter Abhishek Vivekanandan Rupert Polley Yinzhe Shen Christian Schlauch ... Christian Wirth Omer Sahin Tas Nadja Klein Fabian B. Flohr Hanno Gottschalk 94 0 0 21 May 2025
ModRWKV: Transformer Multimodality in Linear Time Jiale Kang Ziyin Yue Qingyu Yin Jiang Rui W. Li Zening Lu Zhouran Ji OffRL 93 0 0 20 May 2025
FMSD-TTS: Few-shot Multi-Speaker Multi-Dialect Text-to-Speech Synthesis for Ü-Tsang, Amdo and Kham Speech Dataset Generation Yutong Liu Ziyue Zhang Ban Ma-bao Yuqing Cai Yongbin Yu Renzeng Duojie Xiangxiang Wang Fan Gao Cheng Huang Nyima Tashi 63 1 0 20 May 2025
Challenges and Limitations in the Synthetic Generation of mHealth Sensor Data Flavio Di Martino Franca Delmastro 70 0 0 20 May 2025
CRAFT: Time Series Forecasting with Cross-Future Behavior Awareness Yingwei Zhang Ke Bu Zhuoran Zhuang Tao Xie Yao Yu Dong Li Yang Guo Detao Lv AI4TS 64 0 0 20 May 2025
Universal Semantic Disentangled Privacy-preserving Speech Representation Learning Biel Tura Vecino Subhadeep Maji Aravind Varier Antonio Bonafonte Ivan Valles ... Roberto Barra-Chicote Ariya Rastrow C. Papayiannis Volker Leutnant Trevor Wood 30 0 0 19 May 2025
Discovering Interpretable Concepts in Large Generative Music Models Nikhil Singh Manuel Cherep Pattie Maes 19 0 0 18 May 2025
SingNet: Towards a Large-Scale, Diverse, and In-the-Wild Singing Voice Dataset Yicheng Gu Chaoren Wang Jing Zhang Xueyao Zhang Zihao Fang Haorui He Zhizheng Wu 75 3 0 14 May 2025
TransDiffuser: End-to-end Trajectory Generation with Decorrelated Multi-modal Representation for Autonomous Driving Xuefeng Jiang Yuan Ma Pengxiang Li Leimeng Xu Xin Wen Kun Zhan Zhongpu Xia Peng Jia Xianpeng Lang Sheng Sun DiffM 95 1 0 14 May 2025
DELPHYNE: A Pre-Trained Model for General and Financial Time Series Xueying Ding Aakriti Mittal Achintya Gopal AI4TS 26 0 0 12 May 2025
MiniMax-Speech: Intrinsic Zero-Shot Text-to-Speech with a Learnable Speaker Encoder Bowen Zhang Congchao Guo Geng Yang Hang Yu Haozhe Zhang ... Yichen Xiao Yiying Zhou Yize Zhang Yuan Lu Yucen He 66 1 0 12 May 2025
Physics-informed Multiple-Input Operators for efficient dynamic response prediction of structures Bilal Ahmed Yuqing Qiu Diab W. Abueidda Waleed El-Sekelly Tarek Abdoun M. Mobasher AI4CE 66 0 0 11 May 2025
Beyond Identity: A Generalizable Approach for Deepfake Audio Detection Yasaman Ahmadiadli Xiao-Ping Zhang Naimul Khan 158 0 0 10 May 2025
Accurate and Efficient Multivariate Time Series Forecasting via Offline Clustering Yiming Niu Jinliang Deng Lulu Zhang Zimu Zhou Yongxin Tong AI4TS 167 0 0 09 May 2025