Learning Latent Representations for Speech Generation and Transformation

13 April 2017

Papers citing "Learning Latent Representations for Speech Generation and Transformation"

24 / 24 papers shown

Title
OmniAudio: Generating Spatial Audio from 360-Degree Video Huadai Liu Tianyi Luo Qikai Jiang Kaicheng Luo Peiwen Sun ... Xin Li Shiliang Zhang Zhijie Yan Zhou Zhao Wei Xue VGen 58 0 0 21 Apr 2025
Interference Motion Removal for Doppler Radar Vital Sign Detection Using Variational Encoder-Decoder Neural Network Mikolaj Czerkawski C. Ilioudis C. Clemente C. Michie I. Andonovic Christos Tachtatzis 14 6 0 12 Apr 2024
Cross-Utterance Conditioned VAE for Speech Generation Yong Li Cheng Yu Guangzhi Sun Weiqin Zu Zheng Tian ... Wei Pan Chao Zhang Jun Wang Yang Yang Fanglei Sun 21 2 0 08 Sep 2023
A Two-Stage Deep Representation Learning-Based Speech Enhancement Method Using Variational Autoencoder and Adversarial Training Yang Xiang Jesper Lisby Højvang M. Rasmussen M. G. Christensen DRL 23 5 0 16 Nov 2022
Local Connection Reinforcement Learning Method for Efficient Control of Robotic Peg-in-Hole Assembly Yuhang Gai Jiwen Zhang Dan Wu Ken Chen OffRL 32 1 0 24 Oct 2022
Learning Invariant Representation and Risk Minimized for Unsupervised Accent Domain Adaptation Chendong Zhao Jianzong Wang Xiaoyang Qu Haoqian Wang Jing Xiao SSL 38 1 0 15 Oct 2022
Gromov-Wasserstein Autoencoders Nao Nakagawa Ren Togo Takahiro Ogawa Miki Haseyama GAN DRL 26 11 0 15 Sep 2022
Self-Supervised Speech Representation Learning: A Review Abdel-rahman Mohamed Hung-yi Lee Lasse Borgholt Jakob Drachmann Havtorn Joakim Edin ... Shang-Wen Li Karen Livescu Lars Maaløe Tara N. Sainath Shinji Watanabe SSL AI4TS 137 350 0 21 May 2022
Improved far-field speech recognition using Joint Variational Autoencoder Shashi Kumar S. Rath Abhishek Pandey DRL 18 0 0 24 Apr 2022
A Brief Overview of Unsupervised Neural Speech Representation Learning Lasse Borgholt Jakob Drachmann Havtorn Joakim Edin Lars Maaløe Christian Igel BDL AI4TS SSL 19 11 0 01 Mar 2022
Disentangling Style and Speaker Attributes for TTS Style Transfer Xiaochun An Frank Soong Lei Xie 68 18 0 24 Jan 2022
Towards Cross-Cultural Analysis using Music Information Dynamics Shlomo Dubnov Kevin Huang Cheng-i Wang 12 1 0 24 Nov 2021
How Speech is Recognized to Be Emotional - A Study Based on Information Decomposition Haoran Sun Lantian Li T. Zheng Dong Wang CVBM 19 0 0 24 Nov 2021
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing Sanyuan Chen Chengyi Wang Zhengyang Chen Yu-Huan Wu Shujie Liu ... Yao Qian Jian Wu Micheal Zeng Xiangzhan Yu Furu Wei SSL 124 1,715 0 26 Oct 2021
A learned conditional prior for the VAE acoustic space of a TTS system Panagiota Karanasou S. Karlapati Alexis Moinet Arnaud Joly Ammar Abbas Simon Slangen Jaime Lorenzo-Trueba Thomas Drugman 30 7 0 14 Jun 2021
A Benchmark of Dynamical Variational Autoencoders applied to Speech Spectrogram Modeling Xiaoyu Bie Laurent Girin Simon Leglaive Thomas Hueber Xavier Alameda-Pineda 26 12 0 11 Jun 2021
A Survey on Deep Reinforcement Learning for Audio-Based Applications S. Latif Heriberto Cuayáhuitl Farrukh Pervez Fahad Shamshad Hafiz Shehbaz Ali Min Zhang OffRL 47 73 0 01 Jan 2021
End-To-End Dilated Variational Autoencoder with Bottleneck Discriminative Loss for Sound Morphing -- A Preliminary Study Matteo Lionello Hendrik Purwins 28 0 0 19 Nov 2020
An Overview of Voice Conversion and its Challenges: From Statistical Modeling to Deep Learning Berrak Sisman Junichi Yamagishi Simon King Haizhou Li BDL 41 317 0 09 Aug 2020
Classical Music Prediction and Composition by means of Variational Autoencoders Daniel Rivero Enrique Fernández-Blanco A. Pazos DRL 33 6 0 21 Jun 2019
Domain Mismatch Robust Acoustic Scene Classification using Channel Information Conversion Seongkyu Mun Suwon Shon 16 21 0 04 Dec 2018
Variational Autoencoder with Implicit Optimal Priors Hiroshi Takahashi Tomoharu Iwata Yuki Yamanaka Masanori Yamada Satoshi Yagi DRL 34 61 0 14 Sep 2018
Autoencoders for music sound modeling: a comparison of linear, shallow, deep, recurrent and variational models Fanny Roche Thomas Hueber Samuel Limier Laurent Girin 14 16 0 11 Jun 2018
Generative timbre spaces: regularizing variational auto-encoders with perceptual metrics P. Esling Axel Chemla-Romeu-Santos Adrien Bitton 17 32 0 22 May 2018