Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs

Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs

20 June 2024

Yuxuan Qiao

Haodong Duan

Xinyu Fang

Junming Yang

Lin Chen

Songyang Zhang

Jiaqi Wang

Dahua Lin

Kai Chen

Papers citing "Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs"

10 / 10 papers shown

Title
Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM Xinyu Fang Z. Chen Kai Lan Lixin Ma Shengyuan Ding ... Zicheng Zhang Guofeng Zhang Haodong Duan K. Chen Dahua Lin MLLM 63 1 0 18 Mar 2025
VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search Yiming Jia Jiashi Li Xiang Yue Bo Li Ping Nie Kai Zou Wenhu Chen LRM 79 2 0 13 Mar 2025
Bongard in Wonderland: Visual Puzzles that Still Make AI Go Mad? Antonia Wüst Tim Nelson Tobiasch Lukas Helff Inga Ibs Wolfgang Stammer Devendra Singh Dhami Constantin Rothkopf Kristian Kersting CoGe ReLM VLM LRM 68 1 0 25 Oct 2024
PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction Long Xing Qidong Huang Xiaoyi Dong Jiajie Lu Pan Zhang ... Yuhang Cao Conghui He Jiaqi Wang Feng Wu Dahua Lin VLM 48 26 0 22 Oct 2024
InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model Xiao-wen Dong Pan Zhang Yuhang Zang Yuhang Cao Bin Wang ... Conghui He Xingcheng Zhang Yu Qiao Dahua Lin Jiaqi Wang VLM MLLM 87 244 0 29 Jan 2024
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks Zhe Chen Jiannan Wu Wenhai Wang Weijie Su Guo Chen ... Bin Li Ping Luo Tong Lu Yu Qiao Jifeng Dai VLM MLLM 176 924 0 21 Dec 2023
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality Qinghao Ye Haiyang Xu Guohai Xu Jiabo Ye Ming Yan ... Junfeng Tian Qiang Qi Ji Zhang Feiyan Huang Jingren Zhou VLM MLLM 208 900 0 27 Apr 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 270 4,244 0 30 Jan 2023
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 367 8,495 0 28 Jan 2022
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 281 1,082 0 17 Feb 2021