Title
EZ-VC: Easy Zero-shot Any-to-Any Voice Conversion Advait Joglekar Divyanshu Singh Rooshil Rohit Bhatia S. Umesh 5 0 0 22 May 2025
Accelerating Autoregressive Speech Synthesis Inference With Speech Speculative Decoding Zijian Lin Yang Zhang Yougen Yuan Yuming Yan Jinjiang Liu Zhiyong Wu Pengfei Hu Qun Yu 22 0 0 21 May 2025
SeamlessEdit: Background Noise Aware Zero-Shot Speech Editing with in-Context Enhancement Kuan-Yu Chen Jeng-Lin Li Jian-Jiun Ding 17 0 0 20 May 2025
MultiActor-Audiobook: Zero-Shot Audiobook Generation with Faces and Voices of Multiple Speakers Kyeongman Park Seongho Joo Kyomin Jung VGen 12 0 0 19 May 2025
Efficient Speech Language Modeling via Energy Distance in Continuous Latent Space Zhengrui Ma Yang Feng Chenze Shao Fandong Meng Jie Zhou Min Zhang 12 0 0 19 May 2025
OZSpeech: One-step Zero-shot Speech Synthesis with Learned-Prior-Conditioned Flow Matching Hieu-Nghia Huynh-Nguyen Ngoc Son Nguyen Huynh Nguyen Dang Thieu Vo Truong-Son Hy Van Nguyen 22 0 0 19 May 2025
MiniMax-Speech: Intrinsic Zero-Shot Text-to-Speech with a Learnable Speaker Encoder Bowen Zhang Congchao Guo Geng Yang Hang Yu Haozhe Zhang ... Yichen Xiao Yiying Zhou Yuyao Zhang Yuan Lu Yucen He 26 0 0 12 May 2025
Improving Trajectory Stitching with Flow Models Reece O'Mahoney Wanming Yu Ioannis Havoutis 38 0 0 12 May 2025
Real-Time Person Image Synthesis Using a Flow Matching Model Jiwoo Jeong Kirok Kim Wooju Kim Nam-Joon Kim 3DH 81 0 0 06 May 2025
T2S: High-resolution Time Series Generation with Text-to-Series Diffusion Models Yunfeng Ge Jiawei Li Yiji Zhao Haomin Wen Zhao Li M. Qiu Haoyang Li Ming Jin Xiaojun Jia DiffM 198 0 0 05 May 2025
Language translation, and change of accent for speech-to-speech task using diffusion model Abhishek Mishra Ritesh Sur Chowdhury Vartul Bahuguna Isha Pandey Ganesh Ramakrishnan DiffM 49 0 0 04 May 2025
FlowDubber: Movie Dubbing with LLM-based Semantic-aware Learning and Flow Matching based Voice Enhancing Gaoxiang Cong Liang-Sheng Li Jiadong Pan Zhedong Zhang Amin Beheshti Anton Van Den Hengel Yuankai Qi Qingming Huang 231 0 0 02 May 2025
Voice Cloning: Comprehensive Survey Hussam Azzuni Abdulmotaleb El Saddik VLM 53 0 0 01 May 2025
ClonEval: An Open Voice Cloning Benchmark Iwona Christop Tomasz Kuczyński Marek Kubis AuLLM 45 0 0 29 Apr 2025
AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation J. Choi Ji-Hoon Kim Kim Sung-Bin Tae-Hyun Oh Joon Son Chung DiffM 56 0 0 29 Apr 2025
Kimi-Audio Technical Report KimiTeam Ding Ding Zeqian Ju Yichong Leng Shixuan Liu ... Zheng Yang Aoxiong Yin Ruibin Yuan Wenjie Qu Zaida Zhou AuLLM VLM 110 5 0 25 Apr 2025
Spatial Speech Translation: Translating Across Space With Binaural Hearables Tuochao Chen Qirui Wang Runlin He Shyam Gollakota 31 0 0 25 Apr 2025
OmniAudio: Generating Spatial Audio from 360-Degree Video Huadai Liu Tianyi Luo Qikai Jiang Kaicheng Luo Peiwen Sun ... Xin Li Shiliang Zhang Zhijie Yan Zhou Zhao Wei Xue VGen 58 0 0 21 Apr 2025
Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis Yifan Yang Shixuan Liu Jiajian Li Yuxuan Hu Haibin Wu ... Haiyang Sun Yanqing Liu Yan Lu Kai Yu Xie Chen 35 0 0 14 Apr 2025
On The Landscape of Spoken Language Models: A Comprehensive Survey Siddhant Arora Kai-Wei Chang Chung-Ming Chien Yifan Peng Haibin Wu Yossi Adi Emmanuel Dupoux Hung-yi Lee Karen Livescu Shinji Watanabe 54 4 0 11 Apr 2025
SlimSpeech: Lightweight and Efficient Text-to-Speech with Slim Rectified Flow Kaidi Wang Wenhao Guan Shenghui Lu Jianglong Yao Lin Li Q. Hong 39 0 0 10 Apr 2025
TARO: Timestep-Adaptive Representation Alignment with Onset-Aware Conditioning for Synchronized Video-to-Audio Synthesis Tri Ton Ji Woo Hong Chang D. Yoo VGen 34 0 0 08 Apr 2025
F5R-TTS: Improving Flow-Matching based Text-to-Speech with Group Relative Policy Optimization Xiaohui Sun Ruitong Xiao Jianye Mo Bowen Wu Qun Yu Baoxun Wang 51 1 0 03 Apr 2025
SupertonicTTS: Towards Highly Scalable and Efficient Text-to-Speech System Hyeongju Kim Jinhyeok Yang Yechan Yu Seunghun Ji Jacob Morton Frederik Bous Joon Byun Juheon Lee 51 0 0 29 Mar 2025
DeepAudio-V1:Towards Multi-Modal Multi-Stage End-to-End Video to Speech and Audio Generation Haomin Zhang Chang Liu Junjie Zheng Zihao Chen Chaofan Ding Xinhan Di DiffM VGen 88 0 0 28 Mar 2025
Offline Model-Based Optimization: Comprehensive Review Minsu Kim Jiayao Gu Ye Yuan Taeyoung Yun Ziqiang Liu Yoshua Bengio Can Chen OffRL 70 2 0 21 Mar 2025
ARFlow: Human Action-Reaction Flow Matching with Physical Guidance Wentao Jiang Jingya Wang Haotao Lu Kaiyang Ji Baoxiong Jia Siyuan Huang Ye-ling Shi 49 0 0 21 Mar 2025
Serenade: A Singing Style Conversion Framework Based On Audio Infilling Lester Phillip Violeta Wen-Chin Huang Tomoki Toda 40 0 0 16 Mar 2025
MAVFlow: Preserving Paralinguistic Elements with Conditional Flow Matching for Zero-Shot AV2AV Multilingual Translation Sungwoo Cho J. Choi Sungnyun Kim Se-Young Yun 68 0 0 14 Mar 2025
An Exhaustive Evaluation of TTS- and VC-based Data Augmentation for ASR Sewade Ogun Vincent Colotte Emmanuel Vincent 66 0 0 11 Mar 2025
LBM: Latent Bridge Matching for Fast Image-to-Image Translation Clement Chadebec O. Tasar Sanjeev Sreetharan Benjamin Aubin 47 0 0 10 Mar 2025
UniWav: Towards Unified Pre-training for Speech Representation Learning and Generation Alexander H. Liu Sang-gil Lee Chao-Han Huck Yang Yuan Gong Yu-Chun Wang James Glass Rafael Valle Bryan Catanzaro SSL 60 0 0 02 Mar 2025
Synthetic data enables context-aware bioacoustic sound event detection Benjamin Hoffman David Robinson Marius Miron V. Baglione D. Canestrari Damian Elias Eva Trapote Olivier Pietquin 50 0 0 01 Mar 2025
DiffCSS: Diverse and Expressive Conversational Speech Synthesis with Diffusion Models Weihao Wu Zhiwei Lin Yixuan Zhou Jingbei Li Rui Niu Qinghua Wu Songjun Cao Long Ma Zhiyong Wu DiffM 44 0 0 27 Feb 2025
Data Augmentation for Instruction Following Policies via Trajectory Segmentation Niklas Höpner Ilaria Tiddi H. V. Hoof 49 0 0 25 Feb 2025
DMOSpeech: Direct Metric Optimization via Distilled Diffusion Model in Zero-Shot Speech Synthesis Yingahao Aaron Li Rithesh Kumar Zeyu Jin DiffM 101 0 0 21 Feb 2025
TechSinger: Technique Controllable Multilingual Singing Voice Synthesis via Flow Matching Wenxiang Guo Yu Zhang Changhao Pan Rongjie Huang Li Tang Ruiqi Li Zhiqing Hong Yongqi Wang Zhou Zhao 115 4 0 18 Feb 2025
SyncSpeech: Low-Latency and Efficient Dual-Stream Text-to-Speech based on Temporal Masked Transformer Zhengyan Sheng Zhihao Du Shiliang Zhang Zhijie Yan Yexin Yang Zhenhua Ling 61 1 0 16 Feb 2025
FELLE: Autoregressive Speech Synthesis with Token-Wise Coarse-to-Fine Flow Matching Hui Wang Shujie Liu Lingwei Meng Jiajian Li Yifan Yang ... Yanqing Liu Haoqin Sun Jiaming Zhou Yan Lu Yong Qin 52 1 0 16 Feb 2025
Koel-TTS: Enhancing LLM based Speech Generation with Preference Alignment and Classifier Free Guidance Shehzeen Samarah Hussain Paarth Neekhara Xuesong Yang Edresson Casanova Subhankar Ghosh Mikyas T. Desta Roy Fejgin Rafael Valle Jason Chun Lok Li 69 3 0 07 Feb 2025
AudioMiXR: Spatial Audio Object Manipulation with 6DoF for Sound Design in Augmented Reality Brandon Woodard Margarita Geleta Joseph J. LaViola Jr. Andrea Fanelli Rhonda Wilson 67 1 0 05 Feb 2025
Video Latent Flow Matching: Optimal Polynomial Projections for Video Interpolation and Extrapolation Yang Cao Zhao Song Chiwun Yang VGen 63 2 0 01 Feb 2025
VoicePrompter: Robust Zero-Shot Voice Conversion with Voice Prompt and Conditional Flow Matching Ha-Yeong Choi Jaehan Park 52 0 0 29 Jan 2025
Emilia: A Large-Scale, Extensive, Multilingual, and Diverse Dataset for Speech Generation Haorui He Zengqiang Shang Chaoren Wang Xuyuan Li Yicheng Gu ... Peiyang Shi Yansen Wang Kai Chen Pengyuan Zhang Zhikai Wu AuLLM 72 4 0 28 Jan 2025
Audio-Language Models for Audio-Centric Tasks: A survey Yi Su Jisheng Bai Qisheng Xu Kele Xu Yong Dou AuLLM 99 2 0 28 Jan 2025
MathReader : Text-to-Speech for Mathematical Documents Sieun Hyeon Kyudan Jung N. Kim Hyun Gon Ryu Jaeyoung Do 46 1 0 13 Jan 2025
AccentBox: Towards High-Fidelity Zero-Shot Accent Generation Jinzuomu Zhong Korin Richmond Zhiba Su Siqi Sun 68 6 0 10 Jan 2025
SSR-Speech: Towards Stable, Safe and Robust Zero-shot Text-based Speech Editing and Synthesis Helin Wang Meng Yu Jiarui Hai Chen Chen Yuchen Hu Rilin Chen Najim Dehak Dong Yu 90 3 0 03 Jan 2025
TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization Chia-Yu Hung Navonil Majumder Zhifeng Kong Ambuj Mehrish Rafael Valle Bryan Catanzaro Soujanya Poria Bryan Catanzaro Soujanya Poria 57 6 0 30 Dec 2024
VinTAGe: Joint Video and Text Conditioning for Holistic Audio Generation Saksham Singh Kushwaha Yapeng Tian DiffM VGen 94 2 0 14 Dec 2024