Sherlock: Self-Correcting Reasoning in Vision-Language Models

28 May 2025

Papers citing "Sherlock: Self-Correcting Reasoning in Vision-Language Models"

5 / 5 papers shown

Title
NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation Xiangyan Liu Jinjie Ni Zijian Wu Chao Du Longxu Dou Haoran Wang Tianyu Pang Michael Shieh OffRL LRM 285 6 0 17 Apr 2025
SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement Xinze Wang Zhiyong Yang Chao Feng Hongjin Lu Linjie Li Chung-Ching Lin Kevin Qinghong Lin Furong Huang Lijuan Wang OODD ReLM LRM VLM 97 10 0 10 Apr 2025
Kimi k1.5: Scaling Reinforcement Learning with LLMs Kimi Team Angang Du Bofei Gao Bowei Xing Changjiu Jiang ... Zhiqi Huang Zihao Huang Ziyao Xu Zhiyong Yang Zongyu Lin OffRL ALM AI4TS VLM LRM 131 224 0 22 Jan 2025
Small Language Models Need Strong Verifiers to Self-Correct Reasoning Yunxiang Zhang Muhammad Khalifa Lajanugen Logeswaran Jaekyeom Kim Moontae Lee Honglak Lee Lu Wang LRM KELM ReLM 45 37 0 26 Apr 2024
A General Theoretical Paradigm to Understand Learning from Human Preferences M. G. Azar Mark Rowland Bilal Piot Daniel Guo Daniele Calandriello Michal Valko Rémi Munos 68 580 0 18 Oct 2023