Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation

8 April 2019

Papers citing "Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation"

50 / 58 papers shown

Title
Zero-shot Cross-lingual Voice Transfer for TTS Fadi Biadsy Youzheng Chen Isaac Elias Kyle Kastner Gary Wang Andrew Rosenberg Bhuvana Ramabhadran 30 1 0 20 Sep 2024
Easy, Interpretable, Effective: openSMILE for voice deepfake detection Octavian Pascu Dan Oneaţă H. Cucu Nicolas M. Muller 48 1 0 28 Aug 2024
SRC4VC: Smartphone-Recorded Corpus for Voice Conversion Benchmark Yuki Saito Takuto Igarashi Kentaro Seki Shinnosuke Takamichi Ryuichi Yamamoto Kentaro Tachibana Hiroshi Saruwatari 23 0 0 11 Jun 2024
Non-autoregressive real-time Accent Conversion model with voice cloning Vladimir Nechaev Sergey Kosyakov 42 1 0 21 May 2024
A New Approach to Voice Authenticity Nicolas M. Muller Piotr Kawa Shen Hu Matthias Neu Jennifer Williams Philip Sperl Konstantin Böttinger 39 4 0 09 Feb 2024
UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit Normalization Yuejiao Wang Xixin Wu Disong Wang Lingwei Meng Helen M. Meng 42 5 0 26 Jan 2024
MLAAD: The Multi-Language Audio Anti-Spoofing Dataset Nicolas M. Muller Piotr Kawa Wei Herng Choong Edresson Casanova Eren Golge Thorsten Muller P. Syga Philip Sperl Konstantin Böttinger 45 35 0 17 Jan 2024
Transfer the linguistic representations from TTS to accent conversion with non-parallel data Xi Chen Jiakun Pei Liumeng Xue Mingyang Zhang 38 4 0 07 Jan 2024
Privacy-preserving and Privacy-attacking Approaches for Speech and Audio -- A Survey Yuchen Liu Apu Kapadia Donald Williamson AAML 41 0 0 26 Sep 2023
Electrolaryngeal Speech Intelligibility Enhancement Through Robust Linguistic Encoders Lester Phillip Violeta Wen-Chin Huang D. Ma Ryuichi Yamamoto Kazuhiro Kobayashi T. Toda 22 3 0 18 Sep 2023
PMVC: Data Augmentation-Based Prosody Modeling for Expressive Voice Conversion Yimin Deng Huaizhen Tang Xulong Zhang Jianzong Wang Ning Cheng Jing Xiao 24 7 0 21 Aug 2023
Miipher: A Robust Speech Restoration Model Integrating Self-Supervised Speech and Text Representations Yuma Koizumi Heiga Zen Shigeki Karita Yifan Ding Kohei Yatabe Nobuyuki Morioka Yu Zhang Wei Han Ankur Bapna M. Bacchiani 34 22 0 03 Mar 2023
WESPER: Zero-shot and Realtime Whisper to Normal Voice Conversion for Whisper-based Speech Interactions Jun Rekimoto 43 19 0 03 Mar 2023
Streaming Parrotron for on-device speech-to-speech conversion Oleg Rybakov Fadi Biadsy Xia Zhang Liyang Jiang Phoenix Meadowlark Shivani Agrawal 26 3 0 25 Oct 2022
DisC-VC: Disentangled and F0-Controllable Neural Voice Conversion Chihiro Watanabe Hirokazu Kameoka DRL 35 0 0 20 Oct 2022
Two-stage training method for Japanese electrolaryngeal speech enhancement based on sequence-to-sequence voice conversion D. Ma Lester Phillip Violeta Kazuhiro Kobayashi T. Toda 21 6 0 19 Oct 2022
Open Challenges in Synthetic Speech Detection Luca Cuccovillo Christoforos Papastergiopoulos Anastasios Vafeiadis Artem Yaroshchuk P. Aichroth K. Votis Dimitrios Tzovaras 46 27 0 15 Sep 2022
Correcting Mispronunciations in Speech using Spectrogram Inpainting Talia Ben Simon Felix Kreuk Faten Awwad Jacob T. Cohen Joseph Keshet 12 2 0 07 Apr 2022
Enhancing Zero-Shot Many to Many Voice Conversion with Self-Attention VAE Ziang Long Yunling Zheng Meng Yu Jack Xin DRL 27 5 0 30 Mar 2022
A Scalable Model Specialization Framework for Training and Inference using Submodels and its Application to Speech Model Personalization Fadi Biadsy Youzheng Chen Xia Zhang Oleg Rybakov Andrew Rosenberg Pedro J. Moreno 38 13 0 23 Mar 2022
Real time spectrogram inversion on mobile phone Oleg Rybakov Marco Tagliasacchi Yunpeng Li Liyang Jiang Xia Zhang Fadi Biadsy 21 4 0 01 Mar 2022
Speaker Identity Preservation in Dysarthric Speech Reconstruction by Adversarial Speaker Adaptation Disong Wang Songxiang Liu Xixin Wu Hui Lu Lifa Sun Xunying Liu Helen Meng 18 5 0 18 Feb 2022
The Effectiveness of Time Stretching for Enhancing Dysarthric Speech for Improved Dysarthric Speech Recognition L. Prananta B. Halpern Siyuan Feng O. Scharenborg 24 16 0 13 Jan 2022
Towards Identity Preserving Normal to Dysarthric Voice Conversion Wen-Chin Huang B. Halpern Lester Phillip Violeta O. Scharenborg T. Toda 35 21 0 15 Oct 2021
Personalized Automatic Speech Recognition Trained on Small Disordered Speech Datasets Jimmy Tobin Katrin Tomanek 24 27 0 09 Oct 2021
Towards Universal Neural Vocoding with a Multi-band Excited WaveNet Axel Roebel F. Bous 24 2 0 07 Oct 2021
Processing Phoneme Specific Segments for Cleft Lip and Palate Speech Enhancement Protima Nomo Sudro R. Sinha S. M. I. S. R. Mahadeva Prasanna 8 1 0 02 Oct 2021
Residual Adapters for Parameter-Efficient ASR Adaptation to Atypical and Accented Speech Katrin Tomanek Vicky Zayats Dirk Padfield K. Vaillancourt Fadi Biadsy 59 57 0 14 Sep 2021
Injecting Text in Self-Supervised Speech Pretraining Zhehuai Chen Yu Zhang Andrew Rosenberg Bhuvana Ramabhadran Gary Wang Pedro J. Moreno SSL 25 36 0 27 Aug 2021
Global Rhythm Style Transfer Without Text Transcriptions Kaizhi Qian Yang Zhang Shiyu Chang Jinjun Xiong Chuang Gan David D. Cox M. Hasegawa-Johnson 28 20 0 16 Jun 2021
A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker Identity in Dysarthric Voice Conversion Wen-Chin Huang Kazuhiro Kobayashi Yu-Huai Peng Ching-Feng Liu Yu Tsao Hsin-Min Wang T. Toda 23 10 0 02 Jun 2021
A Neural Acoustic Echo Canceller Optimized Using An Automatic Speech Recognizer And Large Scale Synthetic Data N. Howard Alex Park T. Shabestary A. Gruenstein Rohit Prabhavalkar 11 15 0 01 Jun 2021
FastS2S-VC: Streaming Non-Autoregressive Sequence-to-Sequence Voice Conversion Hirokazu Kameoka Kou Tanaka Takuhiro Kaneko 31 21 0 14 Apr 2021
Adversarially learning disentangled speech representations for robust multi-factor voice conversion Jie Wang Jingbei Li Xintao Zhao Zhiyong Wu Shiyin Kang Helen Meng DRL 29 29 0 30 Jan 2021
Any-to-One Sequence-to-Sequence Voice Conversion using Self-Supervised Discrete Speech Representations Wen-Chin Huang Yi-Chiao Wu Tomoki Hayashi T. Toda BDL 49 37 0 23 Oct 2020
The NU Voice Conversion System for the Voice Conversion Challenge 2020: On the Effectiveness of Sequence-to-sequence Models and Autoregressive Neural Vocoders Wen-Chin Huang Patrick Lumban Tobing Yi-Chiao Wu Kazuhiro Kobayashi T. Toda 19 8 0 09 Oct 2020
Non-Attentive Tacotron: Robust and Controllable Neural TTS Synthesis Including Unsupervised Duration Modeling Jonathan Shen Ye Jia Mike Chrzanowski Yu Zhang Isaac Elias Heiga Zen Yonghui Wu 19 112 0 08 Oct 2020
WaveGrad: Estimating Gradients for Waveform Generation Nanxin Chen Yu Zhang Heiga Zen Ron J. Weiss Mohammad Norouzi William Chan DiffM BDL 14 771 0 02 Sep 2020
Voice Conversion Challenge 2020: Intra-lingual semi-parallel and cross-lingual voice conversion Yi Zhao Wen-Chin Huang Xiaohai Tian Junichi Yamagishi Rohan Kumar Das Tomi Kinnunen Zhenhua Ling T. Toda 19 205 0 28 Aug 2020
Textual Echo Cancellation Shaojin Ding Ye Jia Ke Hu Quan Wang 19 8 0 13 Aug 2020
An Overview of Voice Conversion and its Challenges: From Statistical Modeling to Deep Learning Berrak Sisman Junichi Yamagishi Simon King Haizhou Li BDL 38 317 0 09 Aug 2020
Pretraining Techniques for Sequence-to-Sequence Voice Conversion Wen-Chin Huang Tomoki Hayashi Yi-Chiao Wu Hirokazu Kameoka T. Toda 27 38 0 07 Aug 2020
Many-to-Many Voice Transformer Network Hirokazu Kameoka Wen-Chin Huang Kou Tanaka Takuhiro Kaneko Nobukatsu Hojo T. Toda ViT 22 30 0 18 May 2020
Cotatron: Transcription-Guided Speech Encoder for Any-to-Many Voice Conversion without Parallel Data Seung-won Park Doo-young Kim Myun-chul Joe 10 40 0 07 May 2020
Unsupervised Speech Decomposition via Triple Information Bottleneck Kaizhi Qian Yang Zhang Shiyu Chang David D. Cox M. Hasegawa-Johnson 12 177 0 23 Apr 2020
End-to-End Whisper to Natural Speech Conversion using Modified Transformer Network Abhishek Niranjan Mukesh Sharma Sai Bharath Chandra Gutha M. Shaik 17 1 0 20 Apr 2020
SkinAugment: Auto-Encoding Speaker Conversions for Automatic Speech Translation Arya D. McCarthy Liezl Puzon J. Pino 31 24 0 27 Feb 2020
Content Based Singing Voice Extraction From a Musical Mixture Pritish Chandna Merlijn Blaauw J. Bonada E. Gómez 28 14 0 12 Feb 2020
Vocoder-free End-to-End Voice Conversion with Transformer Network June-Woo Kim H. Jung Minho Lee 30 4 0 05 Feb 2020
Improving Dysarthric Speech Intelligibility Using Cycle-consistent Adversarial Training S. Yang Minhwa Chung 12 18 0 10 Jan 2020