v1v2 (latest)

Efficient Neural Audio Synthesis

23 February 2018

Papers citing "Efficient Neural Audio Synthesis"

50 / 469 papers shown

Title
End-to-End Adversarial Text-to-Speech Jeff Donahue Sander Dieleman Mikolaj Binkowski Erich Elsen Karen Simonyan 85 187 0 05 Jun 2020
Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search Jaehyeon Kim Sungwon Kim Jungil Kong Sungroh Yoon 132 498 0 22 May 2020
Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario Zexin Cai Yaogen Yang Ming Li 26 9 0 21 May 2020
Conversational End-to-End TTS for Voice Agent Haohan Guo Shaofei Zhang Frank Soong Lei He Lei Xie 94 69 0 21 May 2020
The Effectiveness of Discretization in Forecasting: An Empirical Study on Neural Time Series Models Stephan Rabanser Tim Januschowski Valentin Flunkert David Salinas Jan Gasthaus BDL AI4TS 80 20 0 20 May 2020
Improving Accent Conversion with Reference Encoder and End-To-End Text-To-Speech Wenjie Li Benlai Tang Xiang Yin Yushi Zhao Wei Li Kang Wang Hao Huang Yuxuan Wang Zejun Ma 70 13 0 19 May 2020
Quasi-Periodic Parallel WaveGAN Vocoder: A Non-autoregressive Pitch-dependent Dilated Convolution Model for Parametric Speech Generation Yi-Chiao Wu Tomoki Hayashi T. Okamoto Hisashi Kawai Tomoki Toda 73 4 0 18 May 2020
MoBoAligner: a Neural Alignment Model for Non-autoregressive TTS with Monotonic Boundary Search Naihan Li Shujie Liu Yanqing Liu Sheng Zhao Ming-Yuan Liu Ming Zhou 50 6 0 18 May 2020
Attentron: Few-Shot Text-to-Speech Utilizing Attention-Based Variable-Length Embedding Seungwoo Choi Seungju Han Dongyoung Kim S. Ha 91 67 0 18 May 2020
Many-to-Many Voice Transformer Network Hirokazu Kameoka Wen-Chin Huang Kou Tanaka Takuhiro Kaneko Nobukatsu Hojo Tomoki Toda ViT 94 30 0 18 May 2020
Improved Prosody from Learned F0 Codebook Representations for VQ-VAE Speech Waveform Reconstruction Yi Zhao Haoyu Li Cheng-I Jeff Lai Jennifer Williams Erica Cooper Junichi Yamagishi 84 18 0 16 May 2020
WG-WaveNet: Real-Time High-Fidelity Speech Synthesis without GPU Po-Chun Hsu Hung-yi Lee 44 16 0 15 May 2020
Reverberation Modeling for Source-Filter-based Neural Vocoder Yang Ai Xin Wang Junichi Yamagishi Zhenhua Ling 59 3 0 15 May 2020
AdaDurIAN: Few-shot Adaptation for Neural Text-to-Speech with DurIAN Zewang Zhang Qiao Tian Heng Lu Ling-Hao Chen Shan Liu 62 27 0 12 May 2020
FeatherWave: An efficient high-fidelity neural vocoder with multi-band linear prediction Qiao Tian Zewang Zhang Heng Lu Linghui Chen Shan Liu 69 22 0 12 May 2020
Multi-band MelGAN: Faster Waveform Generation for High-Quality Text-to-Speech Geng Yang Shan Yang Kai-Chun Liu Peng Fang Wei Chen Lei Xie 153 200 0 11 May 2020
GACELA -- A generative adversarial context encoder for long audio inpainting Andrés Marafioti P. Majdak Nicki Holighaus Nathanael Perraudin 100 46 0 11 May 2020
From Speaker Verification to Multispeaker Speech Synthesis, Deep Transfer with Feedback Constraint Zexin Cai Chuxiong Zhang Ming Li 73 42 0 10 May 2020
TIRAMISU: A Polyhedral Compiler for Dense and Sparse Deep Learning Riyadh Baghdadi Abdelkader Nadir Debbagh K. Abdous Fatima-Zohra Benhamida Alex Renda Jonathan Frankle Michael Carbin Saman P. Amarasinghe 62 18 0 07 May 2020
Jukebox: A Generative Model for Music Prafulla Dhariwal Heewoo Jun Christine Payne Jong Wook Kim Alec Radford Ilya Sutskever VLM 176 758 0 30 Apr 2020
CopyCat: Many-to-Many Fine-Grained Prosody Transfer for Neural Text-to-Speech S. Karlapati Alexis Moinet Arnaud Joly V. Klimkov Daniel Sáez-Trigueros Thomas Drugman 52 67 0 30 Apr 2020
ByteSing: A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders Yu Gu Xiang Yin Yonghui Rao Yuan Wan Benlai Tang Yang Zhang Jitong Chen Yuxuan Wang Zejun Ma 91 70 0 23 Apr 2020
Knowledge-and-Data-Driven Amplitude Spectrum Prediction for Hierarchical Neural Vocoders Yang Ai Zhenhua Ling 65 8 0 16 Apr 2020
Generating Multilingual Voices Using Speaker Space Translation Based on Bilingual Speaker Data Soumi Maiti Erik Marchi Alistair Conkie 64 18 0 10 Apr 2020
Normalizing Flows with Multi-Scale Autoregressive Priors Shweta Mahajan Apratim Bhattacharyya Mario Fritz Bernt Schiele Stefan Roth BDL DRL 53 17 0 08 Apr 2020
Improving Perceptual Quality of Drum Transcription with the Expanded Groove MIDI Dataset Lee F. Callender Curtis Hawthorne Jesse Engel 107 21 0 01 Apr 2020
Speech Quality Factors for Traditional and Neural-Based Low Bit Rate Vocoders Wissam A. Jassim Jan Skoglund Michael Chinen Andrew Hines 19 8 0 26 Mar 2020
What is the State of Neural Network Pruning? Davis W. Blalock Jose Javier Gonzalez Ortiz Jonathan Frankle John Guttag 295 1,058 0 06 Mar 2020
AlignTTS: Efficient Feed-Forward Text-to-Speech System without Explicit Alignment Zhen Zeng Jianzong Wang Ning Cheng Tian Xia Jing Xiao VLM 75 56 0 04 Mar 2020
Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers Zhuohan Li Eric Wallace Sheng Shen Kevin Lin Kurt Keutzer Dan Klein Joseph E. Gonzalez 138 151 0 26 Feb 2020
Lifter Training and Sub-band Modeling for Computationally Efficient and High-Quality Voice Conversion Using Spectral Differentials Takaaki Saeki Yuki Saito Shinnosuke Takamichi Hiroshi Saruwatari 17 4 0 17 Feb 2020
Speech-to-Singing Conversion in an Encoder-Decoder Framework Jayneel Parekh Preeti Rao Yi-Hsuan Yang 54 11 0 16 Feb 2020
Many-to-Many Voice Conversion using Conditional Cycle-Consistent Adversarial Networks Shindong Lee Bonggu Ko Keonnyeong Lee In-Chul Yoo Dongsuk Yook GAN 66 34 0 15 Feb 2020
Real-time speech enhancement using equilibriated RNN Daiki Takeuchi Kohei Yatabe Yuma Koizumi Yasuhiro Oikawa Noboru Harada 41 36 0 14 Feb 2020
Efficient And Scalable Neural Residual Waveform Coding With Collaborative Quantization Kai Zhen Mi Suk Lee Jongmo Sung Seungkwon Beack Minje Kim 98 20 0 13 Feb 2020
Generating diverse and natural text-to-speech samples using a quantized fine-grained VAE and auto-regressive prosody prior Guangzhi Sun Yu Zhang Ron J. Weiss Yuan Cao Heiga Zen Andrew Rosenberg Bhuvana Ramabhadran Yonghui Wu DiffM 101 93 0 06 Feb 2020
Vocoder-free End-to-End Voice Conversion with Transformer Network June-Woo Kim H. Jung Minho Lee 52 4 0 05 Feb 2020
Scaling Up Online Speech Recognition Using ConvNets Vineel Pratap Qiantong Xu Jacob Kahn Gilad Avidov Tatiana Likhomanenko Awni Y. Hannun Vitaliy Liptchinsky Gabriel Synnaeve R. Collobert 242 39 0 27 Jan 2020
SqueezeWave: Extremely Lightweight Vocoders for On-device Speech Synthesis Bohan Zhai Tianren Gao Flora Xue D. Rothchild Bichen Wu Joseph E. Gonzalez Kurt Keutzer 64 27 0 16 Jan 2020
DDSP: Differentiable Digital Signal Processing Jesse Engel Lamtharn Hantrakul Chenjie Gu Adam Roberts DiffM 188 381 0 14 Jan 2020
Synthesising Expressiveness in Peking Opera via Duration Informed Attention Network Yusong Wu Shengchen Li Chengzhu Yu Heng Lu Chao Weng Liqiang Zhang Dong Yu 59 5 0 27 Dec 2019
Score and Lyrics-Free Singing Voice Generation Jen-Yu Liu Yu-Hua Chen Yin-Cheng Yeh Yi-Hsuan Yang 70 22 0 26 Dec 2019
Learning Singing From Speech Liqiang Zhang Chengzhu Yu Heng Lu Chao Weng Yusong Wu Xiang Xie Zijin Li Dong Yu 53 8 0 20 Dec 2019
Connecting Vision and Language with Localized Narratives Jordi Pont-Tuset J. Uijlings Soravit Changpinyo Radu Soricut V. Ferrari ObjD 143 252 0 06 Dec 2019
Towards Robust Neural Vocoding for Speech Generation: A Survey Po-Chun Hsu Chun-hsuan Wang Andy T. Liu Hung-yi Lee OOD 78 25 0 05 Dec 2019
WaveFlow: A Compact Flow-based Model for Raw Audio Ming-Yu Liu Kainan Peng Kexin Zhao Z. Song 104 117 0 03 Dec 2019
Rigging the Lottery: Making All Tickets Winners Utku Evci Trevor Gale Jacob Menick Pablo Samuel Castro Erich Elsen 233 612 0 25 Nov 2019
Fast Sparse ConvNets Erich Elsen Marat Dukhan Trevor Gale Karen Simonyan 177 154 0 21 Nov 2019
Prosody Transfer in Neural Text to Speech Using Global Pitch and Loudness Features Siddharth Gururani Kilol Gupta D. Shah Z. Shakeri Jervis Pinto 68 15 0 21 Nov 2019
End-to-end ASR: from Supervised to Semi-Supervised Learning with Modern Architectures Gabriel Synnaeve Qiantong Xu Jacob Kahn Tatiana Likhomanenko Edouard Grave Vineel Pratap Anuroop Sriram Vitaliy Liptchinsky R. Collobert SSL AI4TS 134 248 0 19 Nov 2019