v1v2 (latest)

WaveNet: A Generative Model for Raw Audio

12 September 2016

Papers citing "WaveNet: A Generative Model for Raw Audio"

50 / 3,082 papers shown

Title
Time Series Change Point Detection with Self-Supervised Contrastive Predictive Coding Shohreh Deldari Daniel V. Smith Hao Xue Flora D. Salim AI4TS 125 112 0 28 Nov 2020
Unsupervised learning for economic risk evaluation in the context of Covid-19 pandemic Santiago Cortés Yullys M. Quintero OOD 16 0 0 26 Nov 2020
Real-time error correction and performance aid for MIDI instruments G. Marinov 28 0 0 26 Nov 2020
Learning to dance: A graph convolutional adversarial network to generate realistic dance motions from audio João P. Ferreira Thiago M. Coutinho Thiago L. Gomes J. F. Neto Rafael Azevedo Renato Martins Erickson R. Nascimento GAN 117 74 0 25 Nov 2020
FBWave: Efficient and Scalable Neural Vocoders for Streaming Text-To-Speech on the Edge Bichen Wu Qing He Peizhao Zhang T. Koehler Kurt Keutzer Peter Vajda 47 6 0 25 Nov 2020
MTCRNN: A multi-scale RNN for directed audio texture synthesis M. Huzaifah L. Wyse 78 2 0 25 Nov 2020
How Far Are We from Robust Voice Conversion: A Survey Tzu-hsien Huang Jheng-hao Lin Chien-yu Huang Hung-yi Lee 96 25 0 24 Nov 2020
When Machine Learning Meets Privacy: A Survey and Outlook B. Liu Ming Ding Sina shaham W. Rahayu F. Farokhi Zihuai Lin 97 293 0 24 Nov 2020
Synth2Aug: Cross-domain speaker recognition with TTS synthesized speech Yiling Huang Yutian Chen Jason W. Pelecanos Quan Wang 100 12 0 24 Nov 2020
Remaining Useful Life Estimation Under Uncertainty with Causal GraphNets Charilaos Mylonas Eleni Chatzi 27 0 0 23 Nov 2020
Explainable Multivariate Time Series Classification: A Deep Neural Network Which Learns To Attend To Important Variables As Well As Informative Time Intervals Tsung-Yu Hsieh Suhang Wang Yiwei Sun Vasant Honavar BDL AI4TS FAtt 31 9 0 23 Nov 2020
Densely connected multidilated convolutional networks for dense prediction tasks Naoya Takahashi Yuki Mitsufuji 3DV 69 66 0 21 Nov 2020
Iterative Text-based Editing of Talking-heads Using Neural Retargeting Xinwei Yao Ohad Fried Kayvon Fatahalian Maneesh Agrawala VGen 68 34 0 21 Nov 2020
Very Deep VAEs Generalize Autoregressive Models and Can Outperform Them on Images R. Child BDL VLM 194 353 0 20 Nov 2020
Empirical Evaluation of Deep Learning Model Compression Techniques on the WaveNet Vocoder Sam Davis Giuseppe Coccia Sam Gooch Julian Mack 43 0 0 20 Nov 2020
DeepRepair: Style-Guided Repairing for DNNs in the Real-world Operational Environment Bing Yu Hua Qi Qing Guo Felix Juefei Xu Xiaofei Xie Lei Ma Jianjun Zhao 30 5 0 19 Nov 2020
A Temporal Convolution Network Approach to State-of-Charge Estimation in Li-ion Batteries A. Herle Janamejaya Channegowda Dinakar Prabhu 28 4 0 19 Nov 2020
End-To-End Dilated Variational Autoencoder with Bottleneck Discriminative Loss for Sound Morphing -- A Preliminary Study Matteo Lionello Hendrik Purwins 59 0 0 19 Nov 2020
Causal Contextual Prediction for Learned Image Compression Zongyu Guo Zhizheng Zhang Runsen Feng Zhibo Chen CML 90 144 0 19 Nov 2020
Universal MelGAN: A Robust Neural Vocoder for High-Fidelity Waveform Generation in Multiple Domains Won Jang D. Lim Jaesam Yoon 60 34 0 19 Nov 2020
CAA-Net: Conditional Atrous CNNs with Attention for Explainable Device-robust Acoustic Scene Classification Zhao Ren Qiuqiang Kong Jing Han Mark D. Plumbley Björn W. Schuller 61 29 0 18 Nov 2020
s-Transformer: Segment-Transformer for Robust Neural Speech Synthesis Xi Wang Huaiping Ming Lei He Frank Soong 43 5 0 17 Nov 2020
Learning Dense Rewards for Contact-Rich Manipulation Tasks Zheng Wu Wenzhao Lian Vaibhav Unhelkar Masayoshi Tomizuka S. Schaal 138 37 0 17 Nov 2020
Predictive Coding, Variational Autoencoders, and Biological Connections Joseph Marino DRL AI4CE 95 45 0 15 Nov 2020
Dynamic backdoor attacks against federated learning Anbu Huang AAML FedML 49 21 0 15 Nov 2020
Towards transformation-resilient provenance detection of digital media Jamie Hayes Krishnamurthy Dvijotham Dvijotham Yutian Chen Sander Dieleman Pushmeet Kohli Norman Casagrande 32 3 0 14 Nov 2020
A Comprehensive Survey on Deep Music Generation: Multi-level Representations, Algorithms, Evaluations, and Future Directions Shulei Ji Jing Luo Xinyu Yang MGen 61 126 0 13 Nov 2020
Evaluating the Intelligibility Benefits of Neural Speech Enrichment for Listeners with Normal Hearing and Hearing Impairment using the Greek Harvard Corpus M. Shifas A. Sfakianaki T. Chimona Y. Stylianou 18 0 0 12 Nov 2020
FS-HGR: Few-shot Learning for Hand Gesture Recognition via ElectroMyography E. Rahimian Soheil Zabihi A. Asif Dario Farina S. F. Atashzar Arash Mohammadi 44 102 0 11 Nov 2020
Low-resource expressive text-to-speech using data augmentation Goeric Huybrechts Thomas Merritt Giulia Comini Bartek Perz Raahil Shah Jaime Lorenzo-Trueba 68 53 0 11 Nov 2020
ATCN: Resource-Efficient Processing of Time Series on Edge Mohammadreza Baharani Hamed Tabkhi AI4TS 90 1 0 10 Nov 2020
Enhancing Low-Quality Voice Recordings Using Disentangled Channel Factor and Neural Waveform Model Haoyu Li Yang Ai Junichi Yamagishi 76 2 0 10 Nov 2020
Multi-modal Fusion for Single-Stage Continuous Gesture Recognition Harshala Gammulle Simon Denman Sridha Sridharan Clinton Fookes SLR 96 30 0 10 Nov 2020
Pretraining Strategies, Waveform Model Choice, and Acoustic Configurations for Multi-Speaker End-to-End Speech Synthesis Erica Cooper Xin Wang Yi Zhao Yusuke Yasuda Junichi Yamagishi SyDa 50 3 0 10 Nov 2020
Nanopore Base Calling on the Edge Peter Perešíni V. Boža Broňa Brejová T. Vinař 108 40 0 09 Nov 2020
Reward Conditioned Neural Movement Primitives for Population Based Variational Policy Optimization M. Akbulut Utku Bozdoğan Ahmet E. Tekden Emre Ugur 109 5 0 09 Nov 2020
Denoising-and-Dereverberation Hierarchical Neural Vocoder for Robust Waveform Generation Yang Ai Haoyu Li Xin Wang Junichi Yamagishi Zhenhua Ling 47 4 0 08 Nov 2020
Wave-Tacotron: Spectrogram-free end-to-end text-to-speech synthesis Ron J. Weiss RJ Skerry-Ryan Eric Battenberg Soroosh Mariooryad Diederik P. Kingma 99 101 0 06 Nov 2020
Semi-supervised Learning for Singing Synthesis Timbre J. Bonada Merlijn Blaauw 53 4 0 05 Nov 2020
Dynamically Sampled Nonlocal Gradients for Stronger Adversarial Attacks Leo Schwinn An Nguyen René Raab Dario Zanca Bjoern M. Eskofier Daniel Tenbrinck Martin Burger AAML 59 9 0 05 Nov 2020
Lets Play Music: Audio-driven Performance Video Generation Hao Zhu Yi Li Feixia Zhu A. Zheng Ran He 69 6 0 05 Nov 2020
Paralinguistic Privacy Protection at the Edge Ranya Aloufi Hamed Haddadi David E. Boyle 68 14 0 04 Nov 2020
Prosodic Representation Learning and Contextual Sampling for Neural Text-to-Speech S. Karlapati Ammar Abbas Zack Hodari Alexis Moinet Arnaud Joly Panagiota Karanasou Thomas Drugman 66 19 0 04 Nov 2020
Can We Trust Deep Speech Prior? Ying Shi Haolin Chen Zhiyuan Tang Lantian Li Dong Wang Jiqing Han 63 1 0 04 Nov 2020
Problems using deep generative models for probabilistic audio source separation M. Frank Maximilian Ilse DiffM 77 4 0 03 Nov 2020
StyleMelGAN: An Efficient High-Fidelity Adversarial Vocoder with Temporal Adaptive Normalization Ahmed Mustafa N. Pia Guillaume Fuchs 91 73 0 03 Nov 2020
Synthetic Data Generation for Economists Allison Koenecke H. Varian 31 8 0 02 Nov 2020
Learning to Maximize Speech Quality Directly Using MOS Prediction for Neural Text-to-Speech Yeunju Choi Youngmoon Jung Youngjoo Suh Hoirin Kim 136 6 0 02 Nov 2020
FeatherTTS: Robust and Efficient attention based Neural TTS Qiao Tian Zewang Zhang Chao-Jung Liu Heng Lu Linghui Chen Bin Wei P. He Shan Liu 69 4 0 02 Nov 2020
Using a Bi-directional LSTM Model with Attention Mechanism trained on MIDI Data for Generating Unique Music Ashish Ranjan Varun Nagesh Jolly Behera M. Reza MGen 27 4 0 02 Nov 2020