Title
Breaking Bad Molecules: Are MLLMs Ready for Structure-Level Molecular Detoxification? Fei Lin Ziyang Gong Cong Wang Yonglin Tian Tengchao Zhang Xue Yang Gen Luo Fei Wang 133 0 0 12 Jun 2025
PuzzleWorld: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts Hengzhi Li Brendon Jiang Alexander Naehu Regan Song Justin Zhang ... Steven-Shine Chen Adithya Balachandran Wei Dai Rebecca Chang Paul Pu Liang ReLM LRM 68 0 0 06 Jun 2025
Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning Yunhao Gou Kai Chen Zhili Liu Lanqing Hong Xin Jin Zhenguo Li James T. Kwok Yu Zhang LRM 106 0 0 05 Jun 2025
SurgVLM: A Large Vision-Language Model and Systematic Evaluation Benchmark for Surgical Intelligence Zhitao Zeng Zhu Zhuo Xiaojun Jia Erli Zhang Junde Wu ... Xiaochun Cao Yutong Ban Qi Dou Yang Liu Yueming Jin VLM 63 0 0 03 Jun 2025
Native-Resolution Image Synthesis Zidong Wang Lei Bai Xiangyu Yue Wanli Ouyang Yiyuan Zhang 74 0 0 03 Jun 2025
SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning Zhongwei Wan Zhihao Dou Che Liu Yu Zhang Dongfei Cui ... Yifan Jiang Yangfan He Mi Zhang Shen Yan Shen Yan LRM 88 1 0 02 Jun 2025
Affordance Benchmark for MLLMs Junying Wang Wenzhe Li Yalun Wu Yingji Liang Yijin Guo Chunyi Li Haodong Duan Zicheng Zhang Guangtao Zhai 56 0 0 01 Jun 2025
Improve MLLM Benchmark Efficiency through Interview Farong Wen Yijin Guo Junying Wang Jiaohao Xiao Yingjie Zhou Chunyi Li Zicheng Zhang Guangtao Zhai MLLM 38 0 0 01 Jun 2025
GThinker: Towards General Multimodal Reasoning via Cue-Guided Rethinking Yufei Zhan Ziheng Wu Yousong Zhu Rongkun Xue Ruipu Luo ... Zhentao He Zheming Yang Ming Tang Minghui Qiu Jinqiao Wang MLLM ReLM LRM 55 0 0 01 Jun 2025
AMSbench: A Comprehensive Benchmark for Evaluating MLLM Capabilities in AMS Circuits Yichen Shi Ze Zhang Hongyang Wang Zhuofu Tao Zhongyi Li Bingyu Chen Yaxin Wang Zhiping Yu Ting-Jung Lin Lei He 28 0 0 30 May 2025
Qwen Look Again: Guiding Vision-Language Reasoning Models to Re-attention Visual Information Xu Chu Xinrong Chen Guanyu Wang Zhijie Tan Kui Huang Wenyu Lv Tong Mo Weiping Li LRM VLM 85 0 0 29 May 2025
EvoMoE: Expert Evolution in Mixture of Experts for Multimodal Large Language Models Linglin Jing Yuting Gao Zhigang Wang Wang Lan Yiwen Tang Wenhai Wang Kaipeng Zhang Qingpei Guo MoE 35 0 0 28 May 2025
DisasterM3: A Remote Sensing Vision-Language Dataset for Disaster Damage Assessment and Response Junjue Wang Weihao Xuan Heli Qi Zhihao Liu Kunyi Liu ... Hongruixuan Chen Jian Song J. Xia Zhuo Zheng Naoto Yokoya 62 0 0 27 May 2025
ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models Duo Li Zuhao Yang Shijian Lu VLM 98 0 0 24 May 2025
Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps Sicheng Feng Song Wang Shuyi Ouyang Lingdong Kong Zikai Song Jianke Zhu Huan Wang Xinchao Wang LRM 108 0 0 24 May 2025
Reinforcement Fine-Tuning Powers Reasoning Capability of Multimodal Large Language Models Haoyuan Sun Jiaqi Wu Bo Xia Yifu Luo Yifei Zhao Kai Qin Xufei Lv Tiantian Zhang Yongzhe Chang Xueqian Wang OffRL LRM 209 0 0 24 May 2025
LogicOCR: Do Your Large Multimodal Models Excel at Logical Reasoning on Text-Rich Images? Maoyuan Ye Jing Zhang Juhua Liu Bo Du Dacheng Tao LRM 180 0 0 18 May 2025
Bias and Generalizability of Foundation Models across Datasets in Breast Mammography Elodie Germani Selin Türk Ilayda Zeineddine Fatima Mourad Charbel Shadi Albarqouni AI4CE 115 0 0 14 May 2025
MELLM: Exploring LLM-Powered Micro-Expression Understanding Enhanced by Subtle Motion Perception Zhengye Zhang Sirui Zhao Shifeng Liu Shukang Yin Xinglong Mao Tong Xu Enhong Chen MLLM 109 0 0 11 May 2025
ScreenSpot-Pro: GUI Grounding for Professional High-Resolution Computer Use Kaixin Li Ziyang Meng Hongzhan Lin Ziyang Luo Yuchen Tian Jing Ma Zhiyong Huang Tat-Seng Chua 110 22 0 04 Apr 2025
Qwen2.5-VL Technical Report S. Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge ... Zesen Cheng Hang Zhang Zhibo Yang Haiyang Xu Junyang Lin VLM 441 699 0 20 Feb 2025
Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos Kairui Hu Penghao Wu Fanyi Pu Wang Xiao Yize Zhang Xiang Yue Bo Li Ziqiang Liu 105 32 0 23 Jan 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 395 2,031 0 22 Jan 2025
Kimi k1.5: Scaling Reinforcement Learning with LLMs Kimi Team Angang Du Bofei Gao Bowei Xing Changjiu Jiang ... Zihao Huang Ziyao Xu Zhiyong Yang Zonghan Yang Zongyu Lin OffRL ALM AI4TS VLM LRM 351 338 0 22 Jan 2025
MMVU: Measuring Expert-Level Multi-Discipline Video Understanding Yilun Zhao Lujing Xie Haowei Zhang Guo Gan Yitao Long ... Xiangru Tang Zhenwen Liang Yongxu Liu Chen Zhao Arman Cohan 139 19 0 21 Jan 2025
Aria: An Open Multimodal Native Mixture-of-Experts Model Dongxu Li Yudong Liu Haoning Wu Yue Wang Zhiqi Shen ... Lihuan Zhang Hanshu Yan Guoyin Wang Bei Chen Junnan Li MoE 150 65 0 08 Oct 2024