v1v2 (latest)

WaveNet: A Generative Model for Raw Audio

12 September 2016

Papers citing "WaveNet: A Generative Model for Raw Audio"

50 / 3,082 papers shown

Title
Training Spiking Neural Networks with Local Tandem Learning Qu Yang Jibin Wu Malu Zhang Yansong Chua Xinchao Wang Haizhou Li 106 41 0 10 Oct 2022
Self-explaining Hierarchical Model for Intraoperative Time Series Dingwen Li Bing Xue C. King Bradley A. Fritz M. Avidan Joanna Abraham Chenyang Lu AI4CE 39 4 0 10 Oct 2022
Winner Takes It All: Training Performant RL Populations for Combinatorial Optimization Nathan Grinsztajn Daniel Furelos-Blanco Shikha Surana Clément Bonnet Thomas D. Barrett 124 34 0 07 Oct 2022
Real-World Robot Learning with Masked Visual Pre-training Ilija Radosavovic Tete Xiao Stephen James Pieter Abbeel Jitendra Malik Trevor Darrell SSL 255 254 0 06 Oct 2022
An Overview of Affective Speech Synthesis and Conversion in the Deep Learning Era Andreas Triantafyllopoulos Björn W. Schuller Gokcce .Iymen M. Sezgin Xiangheng He ... Shuo Liu Silvan Mertes Elisabeth André Ruibo Fu Jianhua Tao 115 57 0 06 Oct 2022
The Sound of Silence: Efficiency of First Digit Features in Synthetic Audio Detection Daniele Mari Federica Latora Simone Milani 48 12 0 06 Oct 2022
PSVRF: Learning to restore Pitch-Shifted Voice without reference Yangfu Li Xiaodan Lin Jiaxin Yang 60 0 0 06 Oct 2022
GT-GAN: General Purpose Time Series Synthesis with Generative Adversarial Networks Jinsung Jeon Jeonghak Kim Haryong Song Seunghyeon Cho Noseong Park AI4TS 174 46 0 05 Oct 2022
HYPRO: A Hybridly Normalized Probabilistic Model for Long-Horizon Prediction of Event Sequences Siqiao Xue Xiaoming Shi James Y. Zhang Hongyuan Mei AI4TS 62 35 0 04 Oct 2022
Movement Analytics: Current Status, Application to Manufacturing, and Future Prospects from an AI Perspective Peter Baumgartner Daniel V. Smith Mashud Rana Reena Kapoor Elena Tartaglia A. Schutt Ashfaqur Rahman John Taylor S. Dunstall 77 4 0 04 Oct 2022
Force-Aware Interface via Electromyography for Natural VR/AR Interaction Yunxiang Zhang Benjamin Liang Boyuan Chen P. Torrens S. F. Atashzar Dahua Lin Qinghong Sun OOD 78 24 0 03 Oct 2022
WaveFit: An Iterative and Non-autoregressive Neural Vocoder based on Fixed-Point Iteration Yuma Koizumi Kohei Yatabe Heiga Zen M. Bacchiani DiffM 116 30 0 03 Oct 2022
Mastering Spatial Graph Prediction of Road Networks Sotiris Anagnostidis Aurelien Lucchi Thomas Hofmann GNN 67 1 0 03 Oct 2022
AudioGen: Textually Guided Audio Generation Felix Kreuk Gabriel Synnaeve Adam Polyak Uriel Singer Alexandre Défossez Jade Copet Devi Parikh Yaniv Taigman Yossi Adi DiffM 148 309 0 30 Sep 2022
ConvRNN-T: Convolutional Augmented Recurrent Neural Network Transducers for Streaming Speech Recognition Martin H. Radfar Rohit Barnwal Rupak Vignesh Swaminathan Feng-Ju Chang Grant P. Strimel Nathan Susanj Athanasios Mouchtaris 109 14 0 29 Sep 2022
The Chamber Ensemble Generator: Limitless High-Quality MIR Data via Generative Modeling Yusong Wu Josh Gardner Ethan Manilow Ian Simon Curtis Hawthorne Jesse Engel 91 10 0 28 Sep 2022
TVLT: Textless Vision-Language Transformer Zineng Tang Jaemin Cho Yixin Nie Joey Tianyi Zhou VLM 137 31 0 28 Sep 2022
DynDepNet: Learning Time-Varying Dependency Structures from fMRI Data via Dynamic Graph Structure Learning Alexander Campbell A. Zippo L. Passamonti N. Toschi Pietro Lio 67 4 0 27 Sep 2022
Learning to Learn with Generative Models of Neural Network Checkpoints William S. Peebles Ilija Radosavovic Tim Brooks Alexei A. Efros Jitendra Malik UQCV 156 69 0 26 Sep 2022
Multi-Task Adversarial Training Algorithm for Multi-Speaker Neural Text-to-Speech Yusuke Nakai Yuki Saito K. Udagawa Hiroshi Saruwatari AAML 85 1 0 26 Sep 2022
DeepVol: Volatility Forecasting from High-Frequency Data with Dilated Causal Convolutions Fernando Moreno-Pino S. Zohren 64 13 0 23 Sep 2022
Leveraging the Potential of Novel Data in Power Line Communication of Electricity Grids Christoph Balada Max Bondorf Sheraz Ahmed Andreas Dengel M. Zdrallek 21 0 0 23 Sep 2022
Image Classification using Sequence of Pixels Gajraj Kuldeep 43 0 0 23 Sep 2022
StyleTime: Style Transfer for Synthetic Time Series Generation Yousef El-Laham Svitlana Vyetrenko AI4TS 63 5 0 22 Sep 2022
Poisson Flow Generative Models Yilun Xu Ziming Liu M. Tegmark Tommi Jaakkola 195 88 0 22 Sep 2022
Controllable Accented Text-to-Speech Synthesis Rui Liu Berrak Sisman Guanglai Gao Haizhou Li 79 6 0 22 Sep 2022
Deep Lake: a Lakehouse for Deep Learning S. Hambardzumyan Abhina Tuli Levon Ghukasyan Fariz Rahman Hrant Topchyan ... Mark McQuade M. Harutyunyan Tatevik Hakobyan I. Stranic Davit Buniatyan 90 21 0 22 Sep 2022
An Initial study on Birdsong Re-synthesis Using Neural Vocoders Rhythm Bhatia Tomi Kinnunen 51 1 0 21 Sep 2022
Mandarin Singing Voice Synthesis with Denoising Diffusion Probabilistic Wasserstein GAN Yin-Ping Cho Yu Tsao Hsin-Min Wang Yi-Wen Liu DiffM 88 9 0 21 Sep 2022
Reconstructing Robot Operations via Radio-Frequency Side-Channel Ryan Shah Chuadhry Mujeeb Ahmed Shishir Nagaraja AAML 43 1 0 21 Sep 2022
EMA-VIO: Deep Visual-Inertial Odometry with External Memory Attention Zheming Tu Changhao Chen Xianfei Pan Ruochen Liu Jiarui Cui Jun Mao 92 17 0 18 Sep 2022
Distribution Aware Metrics for Conditional Natural Language Generation David M. Chan Yiming Ni David A. Ross Sudheendra Vijayanarasimhan Austin Myers John F. Canny 79 4 0 15 Sep 2022
Detecting Synthetic Speech Manipulation in Real Audio Recordings M. Rahman M. Graciarena Diego Castán Chris Cobo-Kroenke Mitchell McLaren A. Lawson AAML 78 10 0 15 Sep 2022
Open Challenges in Synthetic Speech Detection Luca Cuccovillo Christoforos Papastergiopoulos Anastasios Vafeiadis Artem Yaroshchuk P. Aichroth K. Votis Dimitrios Tzovaras 82 29 0 15 Sep 2022
Beat Transformer: Demixed Beat and Downbeat Tracking with Dilated Self-Attention Jingwei Zhao Gus Xia Ye Wang 66 19 0 15 Sep 2022
A Temporal Anomaly Detection System for Vehicles utilizing Functional Working Groups and Sensor Channels Subash Neupane Ivan A. Fernandez Wilson Patterson Sudip Mittal Shahram Rahimi 47 5 0 14 Sep 2022
ParaTTS: Learning Linguistic and Prosodic Cross-sentence Information in Paragraph-based TTS Liumeng Xue Frank Soong Shaofei Zhang Linfu Xie 73 23 0 14 Sep 2022
Using Rater and System Metadata to Explain Variance in the VoiceMOS Challenge 2022 Dataset Michael Chinen Jan Skoglund Chandan K. A. Reddy Alessandro Ragano Andrew Hines 32 9 0 14 Sep 2022
Residual Correction in Real-Time Traffic Forecasting Daejin Kim Young Cho Dongmin Kim Cheonbok Park Jaegul Choo 93 7 0 12 Sep 2022
DeID-VC: Speaker De-identification via Zero-shot Pseudo Voice Conversion Ruibin Yuan Yuxuan Wu Jacob Li Jaxter Kim 112 5 0 09 Sep 2022
AudioLM: a Language Modeling Approach to Audio Generation Zalan Borsos Raphaël Marinier Damien Vincent Eugene Kharitonov Olivier Pietquin ... Dominik Roblek O. Teboul David Grangier Marco Tagliasacchi Neil Zeghidour AuLLM 163 617 0 07 Sep 2022
Read it to me: An emotionally aware Speech Narration Application Rishibha Bansal 55 0 0 06 Sep 2022
Bridging Music and Text with Crowdsourced Music Comments: A Sequence-to-Sequence Framework for Thematic Music Comments Generation Peining Zhang Junliang Guo Linli Xu Mu You Junming Yin 55 0 0 05 Sep 2022
HAGCN : Network Decentralization Attention Based Heterogeneity-Aware Spatiotemporal Graph Convolution Network for Traffic Signal Forecasting Junkyu Jang Sunghyuk Park 67 1 0 05 Sep 2022
On the Horizon: Interactive and Compositional Deepfakes Eric Horvitz 99 27 0 05 Sep 2022
Diffusion Models: A Comprehensive Survey of Methods and Applications Ling Yang Zhilong Zhang Yingxia Shao Shenda Hong Runsheng Xu Yue Zhao Wentao Zhang Tengjiao Wang Ming-Hsuan Yang DiffM MedIm 533 1,428 0 02 Sep 2022
Evaluating generative audio systems and their metrics Ashvala Vinay Alexander Lerch 107 20 0 31 Aug 2022
A Circular Window-based Cascade Transformer for Online Action Detection Shuyuan Cao Weihua Luo Bairui Wang Wei Emma Zhang Lin Ma 89 6 0 30 Aug 2022
Spatio-Temporal Wind Speed Forecasting using Graph Networks and Novel Transformer Architectures Lars Odegaard Bentsen N. Warakagoda R. Stenbro P. Engelstad AI4TS 42 108 0 29 Aug 2022
Training Text-To-Speech Systems From Synthetic Data: A Practical Approach For Accent Transfer Tasks L. Finkelstein Heiga Zen Norman Casagrande Chun-an Chan Ye Jia ... Jonathan Shen V. Wan Yu Zhang Yonghui Wu R. Clark 55 9 0 28 Aug 2022