Patch Matters: Training-free Fine-grained Image Caption Enhancement via Local Perception

9 April 2025

Papers citing "Patch Matters: Training-free Fine-grained Image Caption Enhancement via Local Perception"

2 / 2 papers shown

Title
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer Zhuoyi Yang Jiayan Teng Wendi Zheng Ming Ding Shiyu Huang ... Weihan Wang Yean Cheng Xiaotao Gu Yuxiao Dong Jie Tang DiffM VGen 314 565 0 12 Aug 2024
Hallucination of Multimodal Large Language Models: A Survey Zechen Bai Pichao Wang Tianjun Xiao Tong He Zongbo Han Zheng Zhang Mike Zheng Shou VLM LRM 259 197 0 29 Apr 2024