Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense

v1v2 (latest)

Understanding ME? Multimodal Evaluation for Fine-grained Visual Commonsense

10 November 2022

ArXiv (abs)PDF HTML

Papers citing "Understanding ME? Multimodal Evaluation for Fine-grained Visual Commonsense"

4 / 4 papers shown

Title
Dataset Bias Mitigation in Multiple-Choice Visual Question Answering and Beyond Zhecan Wang Long Chen Haoxuan You Keyang Xu Yicheng He Wenhao Li Noal Codella Kai-Wei Chang Shih-Fu Chang 105 3 0 23 Oct 2023
Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models Yangyi Chen Karan Sikka Michael Cogswell Heng Ji Ajay Divakaran LRM 99 27 0 08 Sep 2023
IdealGPT: Iteratively Decomposing Vision and Language Reasoning via Large Language Models Haoxuan You Rui Sun Zhecan Wang Long Chen Gengyu Wang Hammad A. Ayyubi Kai-Wei Chang Shih-Fu Chang VLM MLLM LRM 146 44 0 24 May 2023
HL Dataset: Visually-grounded Description of Scenes, Actions and Rationales Michele Cafagna Kees van Deemter Albert Gatt 3DV 72 4 0 23 Feb 2023