Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

9 March 2025

Papers citing "Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models"

50 / 102 papers shown

Title
Qwen Look Again: Guiding Vision-Language Reasoning Models to Re-attention Visual Information Xu Chu Xinrong Chen Guanyu Wang Zhijie Tan Kui Huang Wenyu Lv Tong Mo Weiping Li LRM VLM 46 0 0 29 May 2025
ZeroGUI: Automating Online GUI Learning at Zero Human Cost Chenyu Yang Shiqian Su Shi-Qi Liu Xuan Dong Yue Yu ... Hao Li Wenhai Wang Yu Qiao Xizhou Zhu Jifeng Dai OffRL 101 0 0 29 May 2025
Infi-MMR: Curriculum-based Unlocking Multimodal Reasoning via Phased Reinforcement Learning in Multimodal Small Language Models Zeyu Liu Y. Liu Guanghao Zhu C. Xie Zhen Li ... Qing Li Shing-Chi Cheung Shengyu Zhang Fei Wu Hongxia Yang ReLM LRM 63 0 0 29 May 2025
DIP-R1: Deep Inspection and Perception with RL Looking Through and Understanding Complex Scenes Sungjune Park Hyunjun Kim Junho Kim S. T. Kim Y. Ro LRM 87 0 0 29 May 2025
Reinforced Reasoning for Embodied Planning Di Wu Jiaxin Fan Junzhe Zang G. Wang Wei Yin Wenhao Li Bo Jin LRM 82 0 0 28 May 2025
VRAG-RL: Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning Qiuchen Wang Ruixue Ding Y. Zeng Zehui Chen Lin Yen-Chen Shihang Wang Pengjun Xie Fei Huang Feng Zhao VLM LRM 62 0 0 28 May 2025
Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment Xiaojun Jia Sensen Gao Simeng Qin Tianyu Pang C. Du Yihao Huang Xinfeng Li Yiming Li Bo Li Yang Liu AAML 37 0 0 27 May 2025
Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO Muzhi Zhu Hao Zhong Canyu Zhao Zongze Du Zheng Huang ... Hao Chen Cheng Zou Jingdong Chen Ming-Hsuan Yang Chunhua Shen LRM 160 0 0 27 May 2025
Beyond Chemical QA: Evaluating LLM's Chemical Reasoning with Modular Chemical Operations Hao Li He Cao Bin Feng Yanjun Shao Xiangru Tang Zhiyuan Yan Li Yuan Yonghong Tian Yu-Feng Li LRM ELM 43 0 0 27 May 2025
What Can RL Bring to VLA Generalization? An Empirical Study Jijia Liu Feng Gao Bingwen Wei Xinlei Chen Qingmin Liao Yi Wu Chao Yu Yu Wang OffRL 233 0 0 26 May 2025
Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought Chao Huang Benfeng Wang Jie Wen Chengliang Liu Wei Wang Li Shen Xiaochun Cao LRM 59 0 0 26 May 2025
Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning Minheng Ni Zhengyuan Yang Linjie Li Chung-Ching Lin Kevin Qinghong Lin W. Zuo Lijuan Wang ReLM LRM 73 1 0 26 May 2025
VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection Zeyi Huang Zeyi Huang Anirudh Sundara Rajan Zefan Cai Wen Xiao Junjie Hu Yong Jae Lee 50 0 0 26 May 2025
$MT$^{3}$: Scaling MLLM-based Text Image Machine Translation via Multi-Task Reinforcement Learning$ MT $^{3}$ : Scaling MLLM-based Text Image Machine Translation via Multi-Task Reinforcement Learning Zhaopeng Feng Yupu Liang Shaosheng Cao Jiayuan Su Jiahan Ren Zhe Xu Yao Hu Wenxuan Huang Jian Wu Zuozhu Liu VLM LRM 78 0 0 26 May 2025
VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization Yunxin Li Xinyu Chen Zitao Li Zhenyu Liu L. Wang Wenhan Luo Baotian Hu Min Zhang OffRL LRM 110 0 0 25 May 2025
So-Fake: Benchmarking and Explaining Social Media Image Forgery Detection Zhenglin Huang Tianxiao Li Xiangtai Li Haiquan Wen Yiwei He ... Hao Fei Xi Yang Xiaowei Huang Bei Peng Guangliang Cheng 61 0 0 24 May 2025
Don't Look Only Once: Towards Multimodal Interactive Reasoning with Selective Visual Revisitation Jiwan Chung Junhyeok Kim Siyeol Kim Jaeyoung Lee Min Soo Kim Youngjae Yu LRM 75 0 0 24 May 2025
GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains C. Wang Xiaoran Pan Zihao Pan Haofan Wang Yiren Song LRM 90 0 0 24 May 2025
Reinforcement Fine-Tuning Powers Reasoning Capability of Multimodal Large Language Models Haoyuan Sun Jiaqi Wu Bo Xia Yifu Luo Yifei Zhao Kai Qin Xufei Lv Tiantian Zhang Yongzhe Chang Xueqian Wang OffRL LRM 180 0 0 24 May 2025
One RL to See Them All: Visual Triple Unified Reinforcement Learning Yan Ma Linge Du Xuyang Shen Shaoxiang Chen Pengfei Li Qibing Ren Lizhuang Ma Yuchao Dai Pengfei Liu Junjie Yan OffRL LRM 110 0 0 23 May 2025
Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling Xiaolong Tang Meina Kan Shiguang Shan Xilin Chen 29 0 0 23 May 2025
Co-Reinforcement Learning for Unified Multimodal Understanding and Generation Jingjing Jiang Chongjie Si Jun Luo Hanwang Zhang Chao Ma 158 0 0 23 May 2025
VeriThinker: Learning to Verify Makes Reasoning Model Efficient Zigeng Chen Xinyin Ma Gongfan Fang Ruonan Yu Xinchao Wang LRM 150 0 0 23 May 2025
T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation Zi-Ao Ma Tian Lan Rong-Cheng Tu Shu-Hang Liu Heyan Huang Zhijing Wu Chen Xu Xian-Ling Mao LRM 21 0 0 23 May 2025
Semantic segmentation with reward Xie Ting Ye Huang Zhilin Liu Lixin Duan 285 0 0 23 May 2025
Divide-Fuse-Conquer: Eliciting "Aha Moments" in Multi-Scenario Games Xiaoqing Zhang Huabin Zheng Ang Lv Yuhan Liu Zirui Song Flood Sung Xiuying Chen Rui Yan OffRL ReLM LRM AI4CE 77 0 0 22 May 2025
R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO Huanjin Yao Qixiang Yin Jingyi Zhang Min Yang Yibo Wang ... Fei Su Li Shen Minghui Qiu Dacheng Tao Jiaxing Huang LRM 70 0 0 22 May 2025
Training-Free Reasoning and Reflection in MLLMs Hongchen Wei Zhenzhong Chen OffRL VLM LRM 97 0 0 22 May 2025
Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning Alex Su Haozhe Wang Weiming Ren Fangzhen Lin Wenhu Chen MLLM OffRL LRM VLM 58 1 0 21 May 2025
Think Only When You Need with Large Hybrid-Reasoning Models Lingjie Jiang Xun Wu Shaohan Huang Qingxiu Dong Zewen Chi Li Dong Xingxing Zhang Tengchao Lv Lei Cui Furu Wei OffRL LRM 122 3 0 20 May 2025
Toward Effective Reinforcement Learning Fine-Tuning for Medical VQA in Vision-Language Models Wenhui Zhu Xuanzhao Dong Xin Li Peijie Qiu Xiwen Chen Abolfazl Razi Aris Sotiras Yi Su Yalin Wang OffRL LM&MA 79 0 0 20 May 2025
Visionary-R1: Mitigating Shortcuts in Visual Reasoning with Reinforcement Learning Jiaer Xia Yuhang Zang Peng Gao Yixuan Li Kaiyang Zhou OffRL ReLM AI4TS VLM LRM 77 0 0 20 May 2025
SurveillanceVQA-589K: A Benchmark for Comprehensive Surveillance Video-Language Understanding with Large Models Bo Liu Pengfei Qiao Minhan Ma Xuange Zhang Yinan Tang Peng Xu Kun Liu Tongtong Yuan 56 0 0 19 May 2025
Observe-R1: Unlocking Reasoning Abilities of MLLMs with Dynamic Progressive Reinforcement Learning Zirun Guo Minjie Hong Tao Jin OffRL LRM 92 0 0 18 May 2025
Enhancing Visual Grounding for GUI Agents via Self-Evolutionary Reinforcement Learning Xinbin Yuan Jian Zhang K. Li Zhuoxuan Cai Lujian Yao ... Enguang Wang Qibin Hou Jinwei Chen Peng-Tao Jiang Bo Li 93 1 0 18 May 2025
CompBench: Benchmarking Complex Instruction-guided Image Editing Bohan Jia Wenxuan Huang Yuntian Tang Junbo Qiao Jincheng Liao ... Lin Chen Fei Zhao Zihan Wang Yuan Xie Shaohui Lin CoGe 123 1 0 18 May 2025
Patho-R1: A Multimodal Reinforcement Learning-Based Pathology Expert Reasoner Wenchuan Zhang Penghao Zhang Jingru Guo Tao Cheng Jie Chen Shuwan Zhang Zhang Zhang Yuhao Yi Hong Bu AI4TS LRM 76 0 0 16 May 2025
Think in Safety: Unveiling and Mitigating Safety Alignment Collapse in Multimodal Large Reasoning Model Xinyue Lou You Li Jinan Xu Xiangyu Shi Chong Chen Kaiyu Huang LRM 80 0 0 10 May 2025
EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning Zhenghao Xing Xiaowei Hu Chi-Wing Fu Wei Wang Jifeng Dai Pheng-Ann Heng MLLM OffRL VLM LRM 91 3 0 07 May 2025
RoboOS: A Hierarchical Embodied Framework for Cross-Embodiment and Multi-Agent Collaboration Huajie Tan Xiaoshuai Hao Cheng Chi Minglan Lin Yaoxu Lyu ... Yulong Ao Yonghua Lin Pengwei Wang Zhongyuan Wang Shanghang Zhang LM&Ro 73 0 0 06 May 2025
X-Reasoner: Towards Generalizable Reasoning Across Modalities and Domains Qianchu Liu Sheng Zhang Guanghui Qin Timothy Ossowski Yu Gu ... Sam Preston Mu-Hsin Wei Paul Vozila Tristan Naumann Hoifung Poon OOD LRM VLM 103 7 0 06 May 2025
R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning Yi-Fan Zhang Xingyu Lu X. Hu Chaoyou Fu Bin Wen ... Jianfei Chen Fan Yang Zheng Zhang Yan Li Liang Wang OffRL LRM 90 6 0 05 May 2025
Sailing by the Stars: A Survey on Reward Models and Learning Strategies for Learning from Rewards Xiaobao Wu LRM 145 5 0 05 May 2025
T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT D. Jiang Ziyu Guo Renrui Zhang Zhuofan Zong Hao Li Le Zhuo Shilin Yan Pheng-Ann Heng Haoyang Li LRM 120 17 0 01 May 2025
Fast-Slow Thinking for Large Vision-Language Model Reasoning W. L. Xiao Leilei Gan Weilong Dai Wanggui He Ziwei Huang ... Fangxun Shu Zhelun Yu Peng Zhang Hao Jiang Leilei Gan ReLM LRM AI4CE 412 8 0 25 Apr 2025
SARI: Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning Cheng Wen Tingwei Guo Shuaijiang Zhao Wei Zou Xiangang Li OffRL AuLLM LRM 83 6 0 22 Apr 2025
LongPerceptualThoughts: Distilling System-2 Reasoning for System-1 Perception Yuan-Hong Liao Sven Elflein Liu He Laura Leal-Taixe Yejin Choi Sanja Fidler David Acuna ReLM LRM VLM 386 2 0 21 Apr 2025
Relation-R1: Progressively Cognitive Chain-of-Thought Guided Reinforcement Learning for Unified Relation Comprehension Lin Li Wei Chen Jiahui Li Lu Chen Long Chen LRM 114 0 0 20 Apr 2025
NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation Xiangyan Liu Jinjie Ni Zijian Wu Chao Du Longxu Dou Haoran Wang Tianyu Pang Michael Shieh OffRL LRM 372 10 0 17 Apr 2025
SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL Junke Wang Zhi Tian Xinyu Wang Xinyu Zhang Weilin Huang Zuxuan Wu Yu Jiang VGen 124 14 0 15 Apr 2025