Dynamic-I2V: Exploring Image-to-Video Generation Models via Multimodal LLM

v1v2v3 (latest)

Dynamic-I2V: Exploring Image-to-Video Generation Models via Multimodal LLM

26 May 2025

ArXiv (abs)PDF HTML

Papers citing "Dynamic-I2V: Exploring Image-to-Video Generation Models via Multimodal LLM"

3 / 3 papers shown

Title
ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models Vipula Rawte Sarthak Jain Aarush Sinha Garv Kaushik Aman Bansal ... Aishwarya N. Reganti Vinija Jain Aman Chadha A. Sheth A. Das VLM MLLM 236 1 0 16 Nov 2024
Koala-36M: A Large-scale Video Dataset Improving Consistency between Fine-grained Conditions and Video Content Qiuheng Wang Yukai Shi Jiarong Ou Ruoxin Chen Ke Lin ... Mingwu Zheng Xin Tao Fei Yang Pengfei Wan Di Zhang VGen 155 34 0 10 Oct 2024
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer Zhuoyi Yang Jiayan Teng Wendi Zheng Ming Ding Shiyu Huang ... Weihan Wang Yean Cheng Xiaotao Gu Yuxiao Dong Jie Tang DiffM VGen 308 565 0 12 Aug 2024