Title
Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception Junyang Wang Haiyang Xu Jiabo Ye Mingshi Yan Weizhou Shen Ji Zhang Fei Huang Jitao Sang 140 129 0 29 Jan 2024
CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning Zheqi He Xinya Wu Pengfei Zhou Richeng Xuan Guang Liu Xi Yang Qiannan Zhu Hua Huang ELM LRM 110 20 0 25 Jan 2024
SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval Siwei Wu Yizhi Li Kang Zhu Ge Zhang Yiming Liang ... Wenhu Chen Wenhao Huang Noura Al Moubayed Jie Fu Chenghua Lin 98 13 0 24 Jan 2024
Mementos: A Comprehensive Benchmark for Multimodal Large Language Model Reasoning over Image Sequences Xiyao Wang Yuhang Zhou Xiaoyu Liu Hongjin Lu Yuancheng Xu ... Taixi Lu Gedas Bertasius Mohit Bansal Huaxiu Yao Furong Huang LRM VLM 168 78 0 19 Jan 2024
WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual World Knowledge Wenbin Wang Liang Ding Li Shen Yong Luo Han Hu Dacheng Tao 79 12 0 12 Jan 2024
Image Super-Resolution with Text Prompt Diffusion Zheng Chen Yulun Zhang Jinjin Gu Xin Yuan Linghe Kong Guihai Chen Xiaokang Yang DiffM 154 21 0 24 Nov 2023
Woodpecker: Hallucination Correction for Multimodal Large Language Models Shukang Yin Chaoyou Fu Sirui Zhao Tong Xu Hao Wang Dianbo Sui Yunhang Shen Ke Li Xingguo Sun Enhong Chen VLM MLLM 108 133 0 24 Oct 2023
PUMGPT: A Large Vision-Language Model for Product Understanding Wei Xue Zongyi Guo Baoliang Cui Zengming Tang Weiwei Zhang Haihong Tang Shuhui Wu Weiming Lu VLM 72 2 0 18 Aug 2023
MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models Chaoyou Fu Peixian Chen Yunhang Shen Yulei Qin Mengdan Zhang ... Xiawu Zheng Ke Li Xing Sun Zhenyu Qiu Rongrong Ji ELM MLLM 161 860 0 23 Jun 2023