Title
ZeroGUI: Automating Online GUI Learning at Zero Human Cost Chenyu Yang Shiqian Su Shi-Qi Liu Xuan Dong Yue Yu ... Hao Li Wenhai Wang Yu Qiao Xizhou Zhu Jifeng Dai OffRL 135 0 0 29 May 2025
Infi-MMR: Curriculum-based Unlocking Multimodal Reasoning via Phased Reinforcement Learning in Multimodal Small Language Models Zeyu Liu Y. Liu Guanghao Zhu C. Xie Zhen Li ... Qing Li Shing-Chi Cheung Shengyu Zhang Fei Wu Hongxia Yang ReLM LRM 69 0 0 29 May 2025
Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start Lai Wei Yuting Li Kaipeng Zheng Chen Wang Yue Wang Linghe Kong Lichao Sun Weiran Huang OffRL ReLM LRM 84 1 0 28 May 2025
Sherlock: Self-Correcting Reasoning in Vision-Language Models Yi Ding Ruqi Zhang ReLM LRM VLM 101 0 0 28 May 2025
Align and Surpass Human Camouflaged Perception: Visual Refocus Reinforcement Fine-Tuning Ruolin Shen Xiaozhong Ji Kai WU Jiangning Zhang Yijun He HaiHua Yang Xiaobin Hu Xiaoyu Sun 64 0 0 26 May 2025
Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning Minheng Ni Zhengyuan Yang Linjie Li Chung-Ching Lin Kevin Qinghong Lin W. Zuo Lijuan Wang ReLM LRM 81 1 0 26 May 2025
VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization Yunxin Li Xinyu Chen Zitao Li Zhenyu Liu L. Wang Wenhan Luo Baotian Hu Min Zhang OffRL LRM 121 0 0 25 May 2025
Reinforcement Fine-Tuning Powers Reasoning Capability of Multimodal Large Language Models Haoyuan Sun Jiaqi Wu Bo Xia Yifu Luo Yifei Zhao Kai Qin Xufei Lv Tiantian Zhang Yongzhe Chang Xueqian Wang OffRL LRM 204 0 0 24 May 2025
The Coherence Trap: When MLLM-Crafted Narratives Exploit Manipulated Visual Contexts Yuchen Zhang Yaxiong Wang Yujiao Wu Lianwei Wu Li Zhu AAML 99 0 0 23 May 2025
Co-Reinforcement Learning for Unified Multimodal Understanding and Generation Jingjing Jiang Chongjie Si Jun Luo Hanwang Zhang Chao Ma 170 0 0 23 May 2025
One RL to See Them All: Visual Triple Unified Reinforcement Learning Yan Ma Linge Du Xuyang Shen Shaoxiang Chen Pengfei Li Qibing Ren Lizhuang Ma Yuchao Dai Pengfei Liu Junjie Yan OffRL LRM 124 0 0 23 May 2025
KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models Yongliang Wu Zonghui Li Xinting Hu Xinyu Ye Xianfang Zeng Gang Yu Wenbo Zhu Bernt Schiele Ming-Hsuan Yang Xu Yang VLM 84 0 0 22 May 2025
VLM-R $^3$ : Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought Chaoya Jiang Yongrui Heng Wei Ye Han Yang Haiyang Xu Ming Yan Ji Zhang Fei Huang Shikun Zhang LRM 70 0 0 22 May 2025
Training-Free Reasoning and Reflection in MLLMs Hongchen Wei Zhenzhong Chen OffRL VLM LRM 106 0 0 22 May 2025
MMaDA: Multimodal Large Diffusion Language Models Ling Yang Ye Tian Bowen Li Xinchen Zhang Ke Shen Yunhai Tong Mengdi Wang VLM LRM 123 6 0 21 May 2025
Observe-R1: Unlocking Reasoning Abilities of MLLMs with Dynamic Progressive Reinforcement Learning Zirun Guo Minjie Hong Tao Jin OffRL LRM 118 0 0 18 May 2025
Human-Aligned Bench: Fine-Grained Assessment of Reasoning Ability in MLLMs vs. Humans Yansheng Qiu Li Xiao Zhaopan Xu Pengfei Zhou Zheng Wang Kai Zhang ELM LRM 119 0 0 16 May 2025
GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning Yang Liu Shengfang Zhai Mingzhe Du Yulin Chen Tri Cao ... Xuzhao Li Kun Wang Junfeng Fang Jiaheng Zhang Bryan Hooi OffRL LRM 107 3 0 16 May 2025
OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning Zhaochen Su Linjie Li Mingyang Song Yunzhuo Hao Zhengyuan Yang ... Guanjie Chen Jiawei Gu Juntao Li Xiaoye Qu Yu Cheng OffRL LRM 84 11 0 13 May 2025
Think in Safety: Unveiling and Mitigating Safety Alignment Collapse in Multimodal Large Reasoning Model Xinyue Lou You Li Jinan Xu Xiangyu Shi Chong Chen Kaiyu Huang LRM 95 0 0 10 May 2025
X-Reasoner: Towards Generalizable Reasoning Across Modalities and Domains Qianchu Liu Sheng Zhang Guanghui Qin Timothy Ossowski Yu Gu ... Sam Preston Mu-Hsin Wei Paul Vozila Tristan Naumann Hoifung Poon OOD LRM VLM 115 8 0 06 May 2025
R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning Yi-Fan Zhang Xingyu Lu X. Hu Chaoyou Fu Bin Wen ... Jianfei Chen Fan Yang Zheng Zhang Yan Li Liang Wang OffRL LRM 116 6 0 05 May 2025
Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models Guanghao Zhou Panjia Qiu Chong Chen Jiadong Wang Zheming Yang Jian Xu Minghui Qiu OffRL LRM 187 8 0 30 Apr 2025
Fast-Slow Thinking for Large Vision-Language Model Reasoning W. L. Xiao Leilei Gan Weilong Dai Wanggui He Ziwei Huang ... Fangxun Shu Zhelun Yu Peng Zhang Hao Jiang Leilei Gan ReLM LRM AI4CE 488 11 0 25 Apr 2025
SARI: Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning Cheng Wen Tingwei Guo Shuaijiang Zhao Wei Zou Xiangang Li OffRL AuLLM LRM 119 6 0 22 Apr 2025
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models Weiye Xu Jun Wang Weiyun Wang Zhe Chen Wengang Zhou ... Xiaohua Wang Xizhou Zhu Wenhai Wang Jifeng Dai Jinguo Zhu VLM LRM 173 7 0 21 Apr 2025
NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation Xiangyan Liu Jinjie Ni Zijian Wu Chao Du Longxu Dou Haoran Wang Tianyu Pang Michael Shieh OffRL LRM 452 16 0 17 Apr 2025
TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning Xingjian Zhang Siwei Wen Wenjun Wu Lei Huang LRM 129 16 0 13 Apr 2025
Mimic In-Context Learning for Multimodal Tasks Yuchu Jiang Jiale Fu Chenduo Hao Xinting Hu Yingzhe Peng Xin Geng Xu Yang 106 0 0 11 Apr 2025
SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models Hardy Chen Haoqin Tu Fali Wang Hui Liu Xianfeng Tang Xinya Du Yuyin Zhou Cihang Xie ReLM VLM OffRL LRM 150 36 0 10 Apr 2025
VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning Haozhe Wang Chao Qu Zuming Huang Wei Chu Fangzhen Lin Wenhu Chen OffRL ReLM SyDa LRM VLM 147 40 0 10 Apr 2025
SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement Xinze Wang Zhiyong Yang Chao Feng Hongjin Lu Linjie Li Chung-Ching Lin Kevin Qinghong Lin Furong Huang Lijuan Wang OODD ReLM LRM VLM 203 20 0 10 Apr 2025
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility Andreas Hochlehnert Hardik Bhatnagar Vishaal Udandarao Samuel Albanie Ameya Prabhu Matthias Bethge ReLM ALM LRM 215 26 0 09 Apr 2025
SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models Sihang Li Yansen Wang Ruipeng Wang Zijun Yao Kun Wang An Zhang Xiang Wang Tat-Seng Chua AAML LRM 109 10 0 09 Apr 2025
VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning Xinhao Li Ziang Yan Desen Meng Lu Dong Xiangyu Zeng Yinan He Yun Wang Yu Qiao Yi Wang Limin Wang VLM AI4TS LRM 119 38 0 09 Apr 2025
Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme Yan Ma Steffi Chern Xuyang Shen Yiran Zhong Pengfei Liu OffRL LRM 130 9 0 03 Apr 2025
A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond Xiaoye Qu Yafu Li Zhaochen Su Weigao Sun Jianhao Yan ... Chaochao Lu Yue Zhang Xian-Sheng Hua Bowen Zhou Yu Cheng ReLM OffRL LRM 180 47 0 27 Mar 2025
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey Yansen Wang Shengqiong Wu Yize Zhang William Yang Wang Ziwei Liu Jiebo Luo Hao Fei LRM 182 32 0 16 Mar 2025
Qwen2.5-VL Technical Report S. Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge ... Zesen Cheng Hang Zhang Zhibo Yang Haiyang Xu Junyang Lin VLM 354 699 0 20 Feb 2025
Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling Xiaokang Chen Zhiyu Wu Xingchao Liu Zizheng Pan Wen Liu Zhenda Xie X. Yu Chong Ruan AI4TS 152 159 0 29 Jan 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 380 2,013 0 22 Jan 2025
Kimi k1.5: Scaling Reinforcement Learning with LLMs Kimi Team Angang Du Bofei Gao Bowei Xing Changjiu Jiang ... Zihao Huang Ziyao Xu Zhiyong Yang Zonghan Yang Zongyu Lin OffRL ALM AI4TS VLM LRM 302 338 0 22 Jan 2025
URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics Ruilin Luo Zhuofan Zheng Yifan Wang Xinzhe Ni Zicheng Lin ... Yiyao Yu C. Shi Ruihang Chu Jin Zeng Yujiu Yang LRM 174 25 0 08 Jan 2025
DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding Z. F. Wu Xiaokang Chen Zizheng Pan Xianglong Liu Wen Liu ... Xingkai Yu Haowei Zhang Liang Zhao Yijiao Wang Chong Ruan MLLM VLM MoE 186 158 0 13 Dec 2024
MageBench: Bridging Large Multimodal Models to Agents Miaosen Zhang Qi Dai Yifan Yang Jianmin Bao Dongdong Chen Kai Qiu Chong Luo Xin Geng B. Guo LRM LLMAG 101 3 0 05 Dec 2024
Devils in Middle Layers of Large Vision-Language Models: Interpreting, Detecting and Mitigating Object Hallucinations via Attention Lens Zhangqi Jiang Junkai Chen Beier Zhu Tingjin Luo Yankun Shen Xu Yang 159 7 0 23 Nov 2024
Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning Amrith Rajagopal Setlur Chirag Nagpal Adam Fisch Xinyang Geng Jacob Eisenstein Rishabh Agarwal Alekh Agarwal Jonathan Berant Aviral Kumar OffRL LRM 106 77 0 10 Oct 2024
LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models Kaichen Zhang Bo Li Peiyuan Zhang Fanyi Pu Joshua Adrian Cahyono ... Shuai Liu Yuanhan Zhang Jingkang Yang Chunyuan Li Ziwei Liu 169 102 0 17 Jul 2024
Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models Wenhao Shi Zhiqiang Hu Yi Bin Junhua Liu Yang Yang See-Kiong Ng Lidong Bing Roy Ka-Wei Lee SyDa MLLM LRM 100 62 0 25 Jun 2024
Improve Mathematical Reasoning in Language Models by Automated Process Supervision Liangchen Luo Yinxiao Liu Rosanne Liu Samrat Phatale Harsh Lara ... Lei Shu Yun Zhu Lei Meng Jiao Sun Abhinav Rastogi LRM 102 193 0 05 Jun 2024