Tri-Ergon: Fine-grained Video-to-Audio Generation with Multi-modal Conditions and LUFS Control

31 December 2024

Papers citing "Tri-Ergon: Fine-grained Video-to-Audio Generation with Multi-modal Conditions and LUFS Control"

4 / 4 papers shown

Title
Towards Video to Piano Music Generation with Chain-of-Perform Support Benchmarks Chang Liu Haomin Zhang Shiyu Xia Zihao Chen Chaofan Ding Xin Yue Huizhe Chen Xinhan Di 40 0 0 26 May 2025
Enhance Generation Quality of Flow Matching V2A Model via Multi-Step CoT-Like Guidance and Combined Preference Optimization Haomin Zhang Siyang Song Haoyu Wang Zihao Chen Xianglong Liu Chaofan Ding Xinhan Di 66 0 0 28 Mar 2025
DeepSound-V1: Start to Think Step-by-Step in the Audio Generation from Videos Yunming Liang Zihao Chen Chaofan Ding Xinhan Di DiffM VGen 101 0 0 28 Mar 2025
Towards Open-Vocabulary Audio-Visual Event Localization Jinxing Zhou Dan Guo Ruohao Guo Yuxin Mao Jingjing Hu Yiran Zhong Xiaojun Chang Ming Wang VLM 117 5 0 18 Nov 2024