Title
Leveraging the Interplay Between Syntactic and Acoustic Cues for Optimizing Korean TTS Pause Formation Yejin Jeon Yunsu Kim Gary Geunbae Lee 60 0 0 03 Apr 2024
CM-TTS: Enhancing Real Time Text-to-Speech Synthesis Efficiency through Weighted Samplers and Consistency Models Xiang Li Fan Bu Ambuj Mehrish Yingting Li Jiale Han Bo Cheng Soujanya Poria DiffM 71 6 0 31 Mar 2024
FastPerson: Enhancing Video Learning through Effective Video Summarization that Preserves Linguistic and Visual Contexts Kazuki Kawamura Jun Rekimoto 54 3 0 26 Mar 2024
Low-Latency Neural Speech Phase Prediction based on Parallel Estimation Architecture and Anti-Wrapping Losses for Speech Generation Tasks Yang Ai Zhenhua Ling 82 3 0 26 Mar 2024
Regularized Adaptive Momentum Dual Averaging with an Efficient Inexact Subproblem Solver for Training Structured Neural Network Zih-Syuan Huang Ching-pei Lee 54 0 0 21 Mar 2024
Creating an African American-Sounding TTS: Guidelines, Technical Challenges,and Surprising Evaluations Claudio S. Pinhanez Raul Fernandez Marcelo Grave J. Nogima R. Hoory 66 1 0 17 Mar 2024
EM-TTS: Efficiently Trained Low-Resource Mongolian Lightweight Text-to-Speech Ziqi Liang Haoxiang Shi Jiawei Wang Keda Lu 82 0 0 13 Mar 2024
Automatic design optimization of preference-based subjective evaluation with online learning in crowdsourcing environment Yusuke Yasuda Tomoki Toda 61 1 0 10 Mar 2024
Attempt Towards Stress Transfer in Speech-to-Speech Machine Translation Sai Akarsh Vamshi Raghusimha Anindita Mondal Anil Vuppala 62 1 0 07 Mar 2024
Multi-Level Attention Aggregation for Language-Agnostic Speaker Replication Yejin Jeon Gary Geunbae Lee 74 2 0 06 Mar 2024
NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models Zeqian Ju Yuancheng Wang Kai Shen Xu Tan Detai Xin ... Shikun Zhang Jiang Bian Lei He Jinyu Li Sheng Zhao DiffM 172 180 0 05 Mar 2024
Towards Accurate Lip-to-Speech Synthesis in-the-Wild Sindhu B. Hegde Rudrabha Mukhopadhyay C. V. Jawahar Vinay P. Namboodiri 51 6 0 02 Mar 2024
VoxGenesis: Unsupervised Discovery of Latent Speaker Manifold for Speech Synthesis Wei-wei Lin Chenhang He Man-Wai Mak Jiachen Lian Kong Aik Lee DiffM 67 0 0 01 Mar 2024
PeriodGrad: Towards Pitch-Controllable Neural Vocoder Based on a Diffusion Probabilistic Model Yukiya Hono Kei Hashimoto Yoshihiko Nankaku Keiichi Tokuda DiffM 80 3 0 22 Feb 2024
AnnoTheia: A Semi-Automatic Annotation Toolkit for Audio-Visual Speech Technologies José-M. Acosta-Triana David Gimeno-Gómez Carlos David Martínez Hinarejos VLM VGen 127 2 0 20 Feb 2024
StyleDubber: Towards Multi-Scale Style Learning for Movie Dubbing Gaoxiang Cong Yuankai Qi Liang-Sheng Li Amin Beheshti Zhedong Zhang Anton Van Den Hengel Ming-Hsuan Yang Chenggang Yan Qingming Huang 115 14 0 20 Feb 2024
BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data Mateusz Lajszczak Guillermo Cámbara Yang Li Fatih Beyhan Arent van Korlaar ... Bartosz Putrycz Soledad López Gambino Kayeon Yoo Elena Sokolova Thomas Drugman LM&MA 113 88 0 12 Feb 2024
Speech Rhythm-Based Speaker Embeddings Extraction from Phonemes and Phoneme Duration for Multi-Speaker Speech Synthesis Kenichi Fujita Atsushi Ando Yusuke Ijima 33 2 0 11 Feb 2024
SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and Music Synthesis Teysir Baoueb Haocheng Liu Mathieu Fontaine Jonathan Le Roux Gaël Richard DiffM 80 6 0 30 Jan 2024
MunTTS: A Text-to-Speech System for Mundari Varun Gumma Rishav Hada Aditya Yadavalli Pamir Gogoi Ishani Mondal Vivek Seshadri Kalika Bali 59 1 0 28 Jan 2024
UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit Normalization Yuejiao Wang Xixin Wu Disong Wang Lingwei Meng Helen M. Meng 57 7 0 26 Jan 2024
Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by Self-Supervised Representation Mixing and Embedding Initialization Wei-Ping Huang Sung-Feng Huang Hung-yi Lee 111 0 0 23 Jan 2024
Benchmarking Large Multimodal Models against Common Corruptions Jiawei Zhang Tianyu Pang Chao Du Yi Ren Yue Liu Min Lin MLLM 92 15 0 22 Jan 2024
Detecting Multimedia Generated by Large AI Models: A Survey Li Lin Neeraj Gupta Yue Zhang Hainan Ren Chun-Hao Liu Feng Ding Xin Eric Wang Xin Li Luisa Verdoliva Shu Hu 231 64 0 22 Jan 2024
Data-driven grapheme-to-phoneme representations for a lexicon-free text-to-speech Abhinav Garg Jiyeon Kim Sushil Khyalia Chanwoo Kim Dhananjaya N. Gowda 79 3 0 19 Jan 2024
FreGrad: Lightweight and Fast Frequency-aware Diffusion Vocoder Tan Dat Nguyen Ji-Hoon Kim Youngjoon Jang Jaehun Kim Joon Son Chung DiffM 123 6 0 18 Jan 2024
MLAAD: The Multi-Language Audio Anti-Spoofing Dataset Nicolas Müller Piotr Kawa Wei Herng Choong Edresson Casanova Eren Golge Thorsten Muller P. Syga Philip Sperl Konstantin Böttinger 112 43 0 17 Jan 2024
DurFlex-EVC: Duration-Flexible Emotional Voice Conversion Leveraging Discrete Representations without Text Alignment Hyoung-Seok Oh Sang-Hoon Lee Deok-Hyun Cho Seong-Whan Lee 162 1 0 16 Jan 2024
End to end Hindi to English speech conversion using Bark, mBART and a finetuned XLSR Wav2Vec2 Aniket Tathe Anand Kamble Suyash Kumbharkar Atharva Bhandare Anirban C. Mitra 64 1 0 11 Jan 2024
Self-Attention and Hybrid Features for Replay and Deep-Fake Audio Detection Lian Huang Chi-Man Pun 64 5 0 11 Jan 2024
Noise-robust zero-shot text-to-speech synthesis conditioned on self-supervised speech-representation model with adapters Kenichi Fujita Hiroshi Sato Takanori Ashihara Hiroki Kanagawa Marc Delcroix Takafumi Moriya Yusuke Ijima 77 9 0 10 Jan 2024
Zero Shot Audio to Audio Emotion Transfer With Speaker Disentanglement Soumya Dutta Sriram Ganapathy 72 3 0 09 Jan 2024
Creating Personalized Synthetic Voices from Articulation Impaired Speech Using Augmented Reconstruction Loss Yusheng Tian Jingyu Li Tan Lee 46 1 0 08 Jan 2024
Incremental FastPitch: Chunk-based High Quality Text to Speech Muyang Du Chuan Liu Junjie Lai 57 0 0 03 Jan 2024
Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic Token Prediction Minchan Kim Myeonghun Jeong Byoung Jin Choi Semin Kim Joun Yeop Lee Nam Soo Kim AI4TS 53 4 0 03 Jan 2024
Audiobox: Unified Audio Generation with Natural Language Prompts Apoorv Vyas Bowen Shi Matt Le Andros Tjandra Yi-Chiao Wu ... Chris Summers Carleigh Wood Joshua Lane Mary Williamson Wei-Ning Hsu 135 94 0 25 Dec 2023
Creating New Voices using Normalizing Flows Piotr Bilinski Thomas Merritt Abdelhamid Ezzerg Kamil Pokora Sebastian Cygert K. Yanagisawa Roberto Barra-Chicote Daniel Korzekwa 62 16 0 22 Dec 2023
ZMM-TTS: Zero-shot Multilingual and Multispeaker Speech Synthesis Conditioned on Self-supervised Discrete Speech Representations Cheng Gong Xin Wang Erica Cooper Dan Wells Longbiao Wang Jianwu Dang Korin Richmond Junichi Yamagishi 116 25 0 22 Dec 2023
StyleSpeech: Self-supervised Style Enhancing with VQ-VAE-based Pre-training for Expressive Audiobook Speech Synthesis Xueyuan Chen Xi Wang Shaofei Zhang Lei He Zhiyong Wu Xixin Wu Helen M. Meng 81 8 0 19 Dec 2023
MM-TTS: Multi-modal Prompt based Style Transfer for Expressive Text-to-Speech Synthesis Wenhao Guan Yishuang Li Tao Li Hukai Huang Feng Wang Jiayan Lin Lingyan Huang Lin Li Q. Hong 85 14 0 17 Dec 2023
CONCSS: Contrastive-based Context Comprehension for Dialogue-appropriate Prosody in Conversational Speech Synthesis Yayue Deng Jinlong Xue Yukang Jia Qifei Li Yichen Han Fengping Wang Yingming Gao Dengfeng Ke Ya Li 89 7 0 16 Dec 2023
Amphion: An Open-Source Audio, Music and Speech Generation Toolkit Xueyao Zhang Liumeng Xue Yicheng Gu Yuancheng Wang Haorui He ... Mingxuan Wang Jun Han Kai Chen Haizhou Li Zhizheng Wu 91 35 0 15 Dec 2023
Neural Text to Articulate Talk: Deep Text to Audiovisual Speech Synthesis achieving both Auditory and Photo-realism Georgios Milis P. Filntisis A. Roussos Petros Maragos CVBM 66 3 0 11 Dec 2023
A Representative Study on Human Detection of Artificially Generated Media Across Countries Joel Frank Franziska Herbert Jonas Ricker Lea Schonherr Thorsten Eisenhofer Asja Fischer Markus Dürmuth Thorsten Holz 93 15 0 10 Dec 2023
Detecting Voice Cloning Attacks via Timbre Watermarking Chang-rui Liu Jie Zhang Tianwei Zhang Xi Yang Weiming Zhang Neng H. Yu 107 38 0 06 Dec 2023
Exploring the Viability of Synthetic Audio Data for Audio-Based Dialogue State Tracking Jihyun Lee Yejin Jeon Wonjun Lee Yunsu Kim Gary Geunbae Lee 64 1 0 04 Dec 2023
Rapid Speaker Adaptation in Low Resource Text to Speech Systems using Synthetic Data and Transfer learning Raviraj Joshi Nikesh Garera 73 2 0 02 Dec 2023
Code-Mixed Text to Speech Synthesis under Low-Resource Constraints Raviraj Joshi Nikesh Garera 79 0 0 02 Dec 2023
TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models Yushi Huang Ruihao Gong Jing Liu Tianlong Chen Xianglong Liu DiffM MQ 111 41 0 27 Nov 2023
Custom Data Augmentation for low resource ASR using Bark and Retrieval-Based Voice Conversion Anand Kamble Aniket Tathe Suyash Kumbharkar Atharva Bhandare Anirban C. Mitra 152 1 0 24 Nov 2023