Temporally Aligned Audio for Video with Autoregression

20 September 2024

Papers citing "Temporally Aligned Audio for Video with Autoregression"

6 / 6 papers shown

Title
LipDiffuser: Lip-to-Speech Generation with Conditional Diffusion Models Danilo de Oliveira Julius Richter Tal Peer Timo Germann DiffM 17 0 0 16 May 2025
OmniAudio: Generating Spatial Audio from 360-Degree Video Huadai Liu Tianyi Luo Qikai Jiang Kaicheng Luo Peiwen Sun ... Xin Li Shiliang Zhang Zhijie Yan Zhou Zhao Wei Xue VGen 58 0 0 21 Apr 2025
Enhance Generation Quality of Flow Matching V2A Model via Multi-Step CoT-Like Guidance and Combined Preference Optimization Haomin Zhang Shri Kiran Srinivasan Haoyu Wang Zihao Chen X. Liu Chaofan Ding Xinhan Di 34 0 0 28 Mar 2025
DeepSound-V1: Start to Think Step-by-Step in the Audio Generation from Videos Yunming Liang Zihao Chen Chaofan Ding Xinhan Di DiffM VGen 57 0 0 28 Mar 2025
KAD: No More FAD! An Effective and Efficient Evaluation Metric for Audio Generation Yoonjin Chung Pilsun Eu Junwon Lee Keunwoo Choi Juhan Nam Ben Sangbae Chon EGVM 62 3 0 21 Feb 2025
MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis Ho Kei Cheng Masato Ishii Akio Hayakawa Takashi Shibuya A. Schwing Yuki Mitsufuji VGen 126 12 0 19 Dec 2024