Surg-R1: A Hierarchical Reasoning Foundation Model for Scalable and Interpretable Surgical Decision Support with Multi-Center Clinical Validation

12 March 2026

Jian Jiang

Chenxi Lin

Yiming Gu

Zengyi Qin

Zhitao Zeng

Kun Yuan

Yonghao Long

Xiang Xia

Cheng Yuan

Yuqi Wang

Zijie Yue

Kunyi Yang

Yuting Zhang

Zhu Zhuo

Dian Qin

Xin Wang

NG Chi Fai

Brian Anthony

Daguang Xu

Guy Rosman

Ozanan Meireles

Zizhen Zhang

Nicolas Padoy

Hesheng Wang

Qi Dou

Yueming Jin

Yutong Ban

LRM

ELM

AI4CE

ArXiv (abs)PDF HTML Github (77★)

Main:30 Pages

15 Figures

Bibliography:1 Pages

14 Tables

Appendix:1 Pages

Abstract

Surgical scene understanding demands not only accurate predictions but also interpretable reasoning that surgeons can verify against clinical expertise. However, existing surgical vision-language models generate predictions without reasoning chains, and general-purpose reasoning models fail on compositional surgical tasks without domain-specific knowledge. We present Surg-R1, a surgical Vision-Language Model that addresses this gap through hierarchical reasoning trained via a four-stage pipeline. Our approach introduces three key contributions: (1) a three-level reasoning hierarchy decomposing surgical interpretation into perceptual grounding, relational understanding, and contextual reasoning; (2) the largest surgical chain-of-thought dataset with 320,000 reasoning pairs; and (3) a four-stage training pipeline progressing from supervised fine-tuning to group relative policy optimization and iterative self-improvement. Evaluation on SurgBench, comprising six public benchmarks and six multi-center external validation datasets from five institutions, demonstrates that Surg-R1 achieves the highest Arena Score (64.9%) on public benchmarks versus Gemini 3.0 Pro (46.1%) and GPT-5.1 (37.9%), outperforming both proprietary reasoning models and specialized surgical VLMs on the majority of tasks spanning instrument localization, triplet recognition, phase recognition, action recognition, and critical view of safety assessment, with a 15.2 percentage point improvement over the strongest surgical baseline on external validation.

View on arXiv

Comments on this paper