Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

9 March 2025

Papers citing "Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models"

2 / 102 papers shown

Title
CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning Justin Johnson B. Hariharan Laurens van der Maaten Li Fei-Fei C. L. Zitnick Ross B. Girshick CoGe 292 2,375 0 20 Dec 2016
Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering Yash Goyal Tejas Khot D. Summers-Stay Dhruv Batra Devi Parikh CoGe 330 3,238 0 02 Dec 2016