Title
WeSinger 2: Fully Parallel Singing Voice Synthesis via Multi-Singer Conditional Adversarial Training Zewang Zhang Yibin Zheng Xinhui Li Li Lu DiffM 31 11 0 05 Jul 2022
Glow-WaveGAN 2: High-quality Zero-shot Text-to-speech Synthesis and Any-to-any Voice Conversion Yinjiao Lei Shan Yang Jian Cong Linfu Xie Dan Su DiffM 64 12 0 05 Jul 2022
Unify and Conquer: How Phonetic Feature Representation Affects Polyglot Text-To-Speech (TTS) Ariadna Sánchez Alessio Falai Ziyao Zhang Orazio Angelini K. Yanagisawa 38 7 0 04 Jul 2022
Cross-speaker Emotion Transfer Based On Prosody Compensation for End-to-End Speech Synthesis Tao Li Xinsheng Wang Qicong Xie Zhichao Wang Ming Jiang Linfu Xie 35 15 0 04 Jul 2022
Automatic Evaluation of Speaker Similarity Kamil Deja Ariadna Sánchez Julian Roth Marius Cotescu 25 6 0 01 Jul 2022
R-MelNet: Reduced Mel-Spectral Modeling for Neural TTS Kyle Kastner Aaron Courville 35 0 0 30 Jun 2022
Language Model-Based Emotion Prediction Methods for Emotional Speech Synthesis Systems Hyun-Wook Yoon Ohsung Kwon Hoyeon Lee Ryuichi Yamamoto Eunwoo Song Jae-Min Kim Min-Jae Hwang 37 15 0 30 Jun 2022
TTS-by-TTS 2: Data-selective augmentation for neural speech synthesis using ranking support vector machine with variational autoencoder Eunwoo Song Ryuichi Yamamoto Ohsung Kwon Chan Song Min-Jae Hwang Suhyeon Oh Hyun-Wook Yoon Jin-Seob Kim Jae-Min Kim 37 7 0 30 Jun 2022
iEmoTTS: Toward Robust Cross-Speaker Emotion Transfer and Control for Speech Synthesis based on Disentanglement between Prosody and Timbre Guangyan Zhang Ying Qin Wenbo Zhang Jialun Wu Mei Li Yu Gai Feijun Jiang Tan Lee 50 26 0 29 Jun 2022
Simple and Effective Multi-sentence TTS with Expressive and Coherent Prosody Peter Makarov Ammar Abbas Mateusz Lajszczak Arnaud Joly S. Karlapati Alexis Moinet Thomas Drugman Penny Karanasou 23 16 0 29 Jun 2022
Expressive, Variable, and Controllable Duration Modelling in TTS Ammar Abbas Thomas Merritt Alexis Moinet S. Karlapati Ewa Muszyñska Simon Slangen Elia Gatti Thomas Drugman 33 10 0 28 Jun 2022
Show Me Your Face, And I'll Tell You How You Speak Christen Millerdurai L. A. Khaliq Timon Ulrich CVBM 68 0 0 28 Jun 2022
Avocodo: Generative Adversarial Network for Artifact-free Vocoder Taejun Bak Junmo Lee Hanbin Bae Jinhyeok Yang Jaesung Bae Young-Sun Joo 25 28 0 27 Jun 2022
Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding Wei-Ping Huang Po-Chun Chen Sung-Feng Huang Hung-yi Lee 24 1 0 27 Jun 2022
Restoring speech intelligibility for hearing aid users with deep learning P. U. Diehl Y. Singer Hannes Zilly U. Schonfeld Paul Meyer-Rachner Mark Berry Henning Sprekeler Elias Sprengel A. Pudszuhn V. Hofmann 11 19 0 23 Jun 2022
Adversarial Multi-Task Learning for Disentangling Timbre and Pitch in Singing Voice Synthesis Tae-Woo Kim Minguk Kang Gyeong-Hoon Lee AAML 34 6 0 23 Jun 2022
Acoustic Modeling for End-to-End Empathetic Dialogue Speech Synthesis Using Linguistic and Prosodic Contexts of Dialogue History Yuto Nishimura Yuki Saito Shinnosuke Takamichi Kentaro Tachibana Hiroshi Saruwatari AI4TS 27 7 0 16 Jun 2022
VisageSynTalk: Unseen Speaker Video-to-Speech Synthesis via Speech-Visage Feature Selection Joanna Hong Minsu Kim Y. Ro CVBM DiffM 36 8 0 15 Jun 2022
NatiQ: An End-to-end Text-to-Speech System for Arabic Ahmed Abdelali Nadir Durrani C. Demiroğlu Fahim Dalvi Hamdy Mubarak Kareem Darwish 28 14 0 15 Jun 2022
Adversarial Audio Synthesis with Complex-valued Polynomial Networks Yongtao Wu Grigorios G. Chrysos V. Cevher DiffM 27 4 0 14 Jun 2022
RF-Next: Efficient Receptive Field Search for Convolutional Neural Networks Shanghua Gao Zhong-Yu Li Qi Han Ming-Ming Cheng Liang Wang 39 34 0 14 Jun 2022
Multi-instrument Music Synthesis with Spectrogram Diffusion Curtis Hawthorne Ian Simon Adam Roberts Neil Zeghidour Josh Gardner Ethan Manilow Jesse Engel DiffM 23 49 0 11 Jun 2022
A Novel Chinese Dialect TTS Frontend with Non-Autoregressive Neural Machine Translation Junhui Zhang Wudi Bao Junjie Pan Xiang Yin Zejun Ma 19 2 0 10 Jun 2022
Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos Alexander Waibel M. Behr Fevziye Irem Eyiokur Dogucan Yaman Tuan-Nam Nguyen Carlos Mullov Mehmet Arif Demirtas Alperen Kantarci Stefan Constantin H. K. Ekenel CVBM 15 14 0 09 Jun 2022
Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for Text-to-Speech Ziyue Jiang Zhe Su Zhou Zhao Qian Yang Yi Ren Jinglin Liu Zhe Ye 26 4 0 05 Jun 2022
Pronunciation Dictionary-Free Multilingual Speech Synthesis by Combining Unsupervised and Supervised Phonetic Representations Chang Liu Zhenhua Ling Linghui Chen 31 3 0 02 Jun 2022
AdaVITS: Tiny VITS for Low Computing Resource Speaker Adaptation Kun Song Heyang Xue Xinsheng Wang Jian Cong Yongmao Zhang Linfu Xie Bing Yang Xiong Zhang Dan Su 19 5 0 01 Jun 2022
StyleTTS: A Style-Based Generative Model for Natural and Diverse Text-to-Speech Synthesis Yinghao Aaron Li Cong Han N. Mesgarani 42 38 0 30 May 2022
Guided-TTS 2: A Diffusion Model for High-quality Adaptive Text-to-Speech with Untranscribed Data Sungwon Kim Heeseung Kim Sung-Hoon Yoon DiffM 204 52 0 30 May 2022
QSpeech: Low-Qubit Quantum Speech Application Toolkit Zhenhou Hong Jianzong Wang Xiaoyang Qu Chendong Zhao Wei Tao Jing Xiao 26 4 0 26 May 2022
TDASS: Target Domain Adaptation Speech Synthesis Framework for Multi-speaker Low-Resource TTS Xulong Zhang Jianzong Wang Ning Cheng Jing Xiao 27 14 0 24 May 2022
Macedonian Speech Synthesis for Assistive Technology Applications B. Sofronievski Elena Velovska Martin Velichkovski Violeta Argirova Tea Veljkovikj ... Kristijan Lazarev Toni Bachvarovski Z. Ivanovski Dimitar Tashkovski B. Gerazov 13 0 0 18 May 2022
Leveraging Pseudo-labeled Data to Improve Direct Speech-to-Speech Translation Qianqian Dong Fengpeng Yue Tom Ko Mingxuan Wang Qibing Bai Yu Zhang 49 16 0 18 May 2022
Deep Learning Enabled Semantic Communications with Speech Recognition and Synthesis Zhenzi Weng Zhijin Qin Xiaoming Tao Chengkang Pan Guangyi Liu Geoffrey Ye Li 44 132 0 09 May 2022
NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality Xu Tan Jiawei Chen Haohe Liu Jian Cong Chen Zhang ... Lei He Frank Soong Tao Qin Sheng Zhao Tie-Yan Liu 44 213 0 09 May 2022
Cross-Utterance Conditioned VAE for Non-Autoregressive Text-to-Speech Yong Li Cheng Yu Guangzhi Sun Hua Jiang Fanglei Sun Weiqin Zu Ying Wen Yang Yang Jun Wang 29 7 0 09 May 2022
How does a spontaneously speaking conversational agent affect user behavior? Takahisa Iizuka H. Mori 13 2 0 02 May 2022
Regotron: Regularizing the Tacotron2 architecture via monotonic alignment loss Efthymios Georgiou Kosmas Kritsis Georgios Paraskevopoulos Athanasios Katsamanis Vassilis Katsouros Alexandros Potamianos 23 3 0 28 Apr 2022
Parallel Synthesis for Autoregressive Speech Generation Po-Chun Hsu Da-Rong Liu Andy T. Liu Hung-yi Lee 42 5 0 25 Apr 2022
SyntaSpeech: Syntax-Aware Generative Adversarial Text-to-Speech Zhenhui Ye Zhou Zhao Yi Ren Fei Wu 46 27 0 25 Apr 2022
Supervised Attention in Sequence-to-Sequence Models for Speech Recognition Gene-Ping Yang Hao Tang 23 2 0 25 Apr 2022
Dictionary Attacks on Speaker Verification Mirko Marras Pawel Korus Anubhav Jain N. Memon AAML 34 9 0 24 Apr 2022
LibriS2S: A German-English Speech-to-Speech Translation Corpus Pedro Jeuris Jan Niehues AuLLM 25 3 0 22 Apr 2022
A Survey on Non-Autoregressive Generation for Neural Machine Translation and Beyond Yisheng Xiao Lijun Wu Junliang Guo Juntao Li Hao Fei Tao Qin Tie-Yan Liu 3DV MedIm AI4CE 37 82 0 20 Apr 2022
Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset and Multimodal Method for Temporal Forgery Localization Zhixi Cai Kalin Stefanov Abhinav Dhall Munawar Hayat 25 3 0 13 Apr 2022
Heterogeneous Target Speech Separation Hyunjae Cho Wonbin Jung Junhyeok Lee Paris Smaragdis Sanghyun Woo 51 26 0 07 Apr 2022
Self-supervised learning for robust voice cloning Konstantinos Klapsas Nikolaos Ellinas Karolos Nikitaras G. Vamvoukakis Panos Kakoulidis ... S. Raptis June Sig Sung Gunu Jho Aimilios Chalamandaris Pirros Tsiakoulis SSL 32 6 0 07 Apr 2022
Arabic Text-To-Speech (TTS) Data Preparation Hala Al Masri Muhy Eddin Za'ter 14 1 0 07 Apr 2022
SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural Text-to-Speech Synthesis Georgia Maniati Alexandra Vioni Nikolaos Ellinas Karolos Nikitaras Konstantinos Klapsas June Sig Sung Gunu Jho Aimilios Chalamandaris Pirros Tsiakoulis 24 26 0 06 Apr 2022
Adversarial Learning of Intermediate Acoustic Feature for End-to-End Lightweight Text-to-Speech Hyungchan Yoon Seyun Um Changwhan Kim Hong-Goo Kang 28 0 0 05 Apr 2022