Title
Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following Tianyi Xiong Yi Ge Ming Li Zuolong Zhang Pranav Kulkarni ... Yanshuo Chen X. Wang Renrui Zhang Wenhu Chen Heng Huang 113 0 0 26 Nov 2025
Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight Yi Yang X. Li Yiyang Chen Jin Song Yihan Wang Zipeng Xiao Jiadi Su You Qiaoben Pengfei Liu Zhijie Deng VLM 145 0 0 20 Nov 2025
V-Thinker: Interactive Thinking with Images Runqi Qiao Qiuna Tan Minghan Yang Guanting Dong Peiqing Yang ... Yida Xu Lan Yang Chong Sun Chen Li Honggang Zhang MLLM LRM 301 1 0 06 Nov 2025
DynaSolidGeo: A Dynamic Benchmark for Genuine Spatial Mathematical Reasoning of VLMs in Solid Geometry Changti Wu Shijie Lian Zihao Liu Lei Zhang Laurence Tianruo Yang Kai Chen AIMat 381 0 0 25 Oct 2025
Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views Z. Chen M. Zhang Xinlei Yu Xufang Luo Mingze Sun Zihao Pan Yan Feng Peng Pei Xunliang Cai Ruqi Huang VGen LRM 96 7 0 21 Oct 2025
VisionSelector: End-to-End Learnable Visual Token Compression for Efficient Multimodal LLMs Jiaying Zhu Yurui Zhu Xin Lu Wenrui Yan Dong Li Kunlin Liu Xueyang Fu Zheng-Jun Zha MQ VLM 195 0 0 18 Oct 2025
UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning Tiancheng Gu Kaicheng Yang Kaichen Zhang Xiang An Ziyong Feng Y. Zhang Weidong Cai Jiankang Deng Lidong Bing 149 4 0 15 Oct 2025
A Survey on Agentic Multimodal Large Language Models Huanjin Yao Ruifei Zhang Jiaxing Huang Jingyi Zhang Yibo Wang ... Ruolin Zhu Yongcheng Jing Shunyu Liu Guanbin Li Dacheng Tao LM&Ro AIFin AI4TS LRM AI4CE 201 4 0 13 Oct 2025