Title
OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning Zhiyuan Liu Yuting Zhang Feng Liu Changwang Zhang Ying Sun Jun Wang LRM 81 8 0 20 Mar 2025
R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization Jingyi Zhang Jiaxing Huang Huanjin Yao Shunyu Liu Xikun Zhang Shijian Lu Dacheng Tao LRM 101 45 0 17 Mar 2025
R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization Yi Yang Xiaoxuan He Hongkun Pan Xiyan Jiang Yan Deng ... Dacheng Yin Fengyun Rao Minfeng Zhu Bo Zhang Wei Chen VLM LRM 87 52 1 13 Mar 2025
R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model Hengguang Zhou Xirui Li Ruochen Wang Minhao Cheng Tianyi Zhou Cho-Jui Hsieh OffRL LRM ReLM 97 43 0 07 Mar 2025
VoCoT: Unleashing Visually Grounded Multi-Step Reasoning in Large Multi-Modal Models Zejun Li Ruipu Luo Jiwen Zhang Minghui Qiu Zhongyu Wei Zhongyu Wei LRM MLLM 93 14 0 27 May 2024
Automatic Chain of Thought Prompting in Large Language Models Zhuosheng Zhang Aston Zhang Mu Li Alexander J. Smola ReLM LRM 98 603 0 07 Oct 2022
Flamingo: a Visual Language Model for Few-Shot Learning Jean-Baptiste Alayrac Jeff Donahue Pauline Luc Antoine Miech Iain Barr ... Mikolaj Binkowski Ricardo Barreira Oriol Vinyals Andrew Zisserman Karen Simonyan MLLM VLM 232 3,458 0 29 Apr 2022
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai ... Matthias Minderer G. Heigold Sylvain Gelly Jakob Uszkoreit N. Houlsby ViT 185 40,217 0 22 Oct 2020
Towards VQA Models That Can Read Amanpreet Singh Vivek Natarajan Meet Shah Yu Jiang Xinlei Chen Dhruv Batra Devi Parikh Marcus Rohrbach EgoV 35 1,174 0 18 Apr 2019