VLM-R $^3$ : Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought

22 May 2025

Papers citing "VLM-R$^3$: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought"

29 / 29 papers shown

Title
R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization Yi Yang Xiaoxuan He Hongkun Pan Xiyan Jiang Yan Deng ... Dacheng Yin Fengyun Rao Minfeng Zhu Bo Zhang Wei Chen VLM LRM 89 52 1 13 Mar 2025
LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL Yingzhe Peng Gongrui Zhang Miaosen Zhang Zhiyuan You Jie Liu Qipeng Zhu Kai Yang Xingzhong Xu Xin Geng Xu Yang LRM ReLM 134 52 0 10 Mar 2025
Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement Yuqi Liu Bohao Peng Zhisheng Zhong Zihao Yue Fanbin Lu Bei Yu Jiaya Jia LRM VLM 101 29 0 09 Mar 2025
MM-Verify: Enhancing Multimodal Reasoning with Chain-of-Thought Verification Linzhuang Sun Hao Liang Jingxuan Wei Bihui Yu Tianpeng Li Fan Yang Guosheng Dong Wentao Zhang LRM 88 10 0 20 Feb 2025
Kimi k1.5: Scaling Reinforcement Learning with LLMs Kimi Team Angang Du Bofei Gao Bowei Xing Changjiu Jiang ... Zihao Huang Ziyao Xu Zhiyong Yang Zonghan Yang Zongyu Lin OffRL ALM AI4TS VLM LRM 181 250 0 22 Jan 2025
Visual-O1: Understanding Ambiguous Instructions via Multi-modal Multi-turn Chain-of-thoughts Reasoning Minheng Ni Yutao Fan Lei Zhang Wangmeng Zuo LRM AI4CE 57 8 0 04 Oct 2024
Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers Zhenting Qi Mingyuan Ma Jiahang Xu Li Zhang Fan Yang Mao Yang ReLM LRM 39 73 0 12 Aug 2024
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters Charlie Snell Jaehoon Lee Kelvin Xu Aviral Kumar LRM 104 576 0 06 Aug 2024
Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning Hao Shao Shengju Qian Han Xiao Guanglu Song Zhuofan Zong Letian Wang Yu Liu Hongsheng Li VGen LRM MLLM 80 58 0 25 Mar 2024
A Survey of Reasoning with Foundation Models Jiankai Sun Chuanyang Zheng Enze Xie Zhengying Liu Ruihang Chu ... Xipeng Qiu Yi-Chen Guo Hui Xiong Qun Liu Zhenguo Li ReLM LRM AI4CE 101 80 0 17 Dec 2023
Improved Baselines with Visual Instruction Tuning Haotian Liu Chunyuan Li Yuheng Li Yong Jae Lee VLM MLLM 89 2,593 0 05 Oct 2023
Skeleton-of-Thought: Prompting LLMs for Efficient Parallel Generation Xuefei Ning Zinan Lin Zixuan Zhou Zifu Wang Huazhong Yang Yu Wang ReLM LRM 20 35 0 28 Jul 2023
MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models Chaoyou Fu Peixian Chen Yunhang Shen Yulei Qin Mengdan Zhang ... Xiawu Zheng Ke Li Xing Sun Zhenyu Qiu Rongrong Ji ELM MLLM 62 806 0 23 Jun 2023
Tab-CoT: Zero-shot Tabular Chain of Thought Ziqi Jin Wei Lu ReLM LMTD LRM 25 36 0 28 May 2023
Tree of Thoughts: Deliberate Problem Solving with Large Language Models Shunyu Yao Dian Yu Jeffrey Zhao Izhak Shafran Thomas Griffiths Yuan Cao Karthik Narasimhan LM&Ro LRM AI4CE 108 1,850 0 17 May 2023
Visual Chain of Thought: Bridging Logical Gaps with Multimodal Infillings Daniel Philip Rose Vaishnavi Himakunthala Andy Ouyang Ryan He Alex Mei Yujie Lu Michael Stephen Saxon Chinmay Sonar Diba Mirza William Yang Wang LRM 86 43 0 03 May 2023
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality Qinghao Ye Haiyang Xu Guohai Xu Jiabo Ye Ming Yan ... Junfeng Tian Qiang Qi Ji Zhang Feiyan Huang Jingren Zhou VLM MLLM 240 931 0 27 Apr 2023
MathPrompter: Mathematical Reasoning using Large Language Models Shima Imani Liang Du H. Shrivastava KELM ReLM LRM 36 203 0 04 Mar 2023
Multimodal Chain-of-Thought Reasoning in Language Models Zhuosheng Zhang Aston Zhang Mu Li Hai Zhao George Karypis Alexander J. Smola LRM 64 430 0 02 Feb 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 385 4,465 0 30 Jan 2023
Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks Wenhu Chen Xueguang Ma Xinyi Wang William W. Cohen ReLM ReCod LRM 127 774 0 22 Nov 2022
Reflection of Thought: Inversely Eliciting Numerical Reasoning in Language Models via Solving Linear Systems Fan Zhou Haoyu Dong Qian Liu Zhoujun Cheng Shi Han Dongmei Zhang ReLM LRM 54 6 0 11 Oct 2022
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering Pan Lu Swaroop Mishra Tony Xia Liang Qiu Kai-Wei Chang Song-Chun Zhu Oyvind Tafjord Peter Clark Ashwin Kalyan ELM ReLM LRM 228 1,188 0 20 Sep 2022
Flamingo: a Visual Language Model for Few-Shot Learning Jean-Baptiste Alayrac Jeff Donahue Pauline Luc Antoine Miech Iain Barr ... Mikolaj Binkowski Ricardo Barreira Oriol Vinyals Andrew Zisserman Karen Simonyan MLLM VLM 283 3,458 0 29 Apr 2022
STaR: Bootstrapping Reasoning With Reasoning E. Zelikman Yuhuai Wu Jesse Mu Noah D. Goodman ReLM LRM 81 468 0 28 Mar 2022
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 473 3,486 0 21 Mar 2022
DocVQA: A Dataset for VQA on Document Images Minesh Mathew Dimosthenis Karatzas C. V. Jawahar 97 700 0 01 Jul 2020
Towards VQA Models That Can Read Amanpreet Singh Vivek Natarajan Meet Shah Yu Jiang Xinlei Chen Dhruv Batra Devi Parikh Marcus Rohrbach EgoV 50 1,174 0 18 Apr 2019
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 236 18,685 0 20 Jul 2017

VLM-R3^33: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought

Papers citing "VLM-R$^3$: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought"

VLM-R $^3$ : Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought