Surg-R1: A Hierarchical Reasoning Foundation Model for Scalable and Interpretable Surgical Decision Support with Multi-Center Clinical Validation

About

Surgical scene understanding demands not only accurate predictions but also interpretable reasoning that surgeons can verify against clinical expertise. However, existing surgical vision-language models generate predictions without reasoning chains, and general-purpose reasoning models fail on compositional surgical tasks without domain-specific knowledge. We present Surg-R1, a surgical Vision-Language Model that addresses this gap through hierarchical reasoning trained via a four-stage pipeline. Our approach introduces three key contributions: (1) a three-level reasoning hierarchy decomposing surgical interpretation into perceptual grounding, relational understanding, and contextual reasoning; (2) the largest surgical chain-of-thought dataset with 320,000 reasoning pairs; and (3) a four-stage training pipeline progressing from supervised fine-tuning to group relative policy optimization and iterative self-improvement. Evaluation on SurgBench, comprising six public benchmarks and six multi-center external validation datasets from five institutions, demonstrates that Surg-R1 achieves the highest Arena Score (64.9%) on public benchmarks versus Gemini 3.0 Pro (46.1%) and GPT-5.1 (37.9%), outperforming both proprietary reasoning models and specialized surgical VLMs on the majority of tasks spanning instrument localization, triplet recognition, phase recognition, action recognition, and critical view of safety assessment, with a 15.2 percentage point improvement over the strongest surgical baseline on external validation.

Jian Jiang, Chenxi Lin, Yiming Gu, Zengyi Qin, Zhitao Zeng, Kun Yuan, Yonghao Long, Xiang Xia, Cheng Yuan, Yuqi Wang, Zijie Yue, Kunyi Yang, Yuting Zhang, Zhu Zhuo, Dian Qin, Xin Wang, NG Chi Fai, Brian Anthony, Daguang Xu, Guy Rosman, Ozanan Meireles, Zizhen Zhang, Nicolas Padoy, Hesheng Wang, Qi Dou, Yueming Jin, Yutong Ban• 2026

Related benchmarks

Task	Dataset	Result
Surgical Phase Recognition	Cholec80	--	70
Surgical Phase Recognition	MultiBypass140	Phase-level Precision0.5524	39
Phase Recognition	Cholec80	Acc80.9	24
Triplet Recognition	CholecT50	Accuracy (Triplet)51.69	23
Action Recognition	SAR-RARP50	Accuracy48.1	20
Action Recognition	Chinese University of Hong Kong (CUHK) (external val)	Accuracy32.92	11
Critical View of Safety (CVS) assessment	Nanfang Hospital (SMU) (external val)	Overall CVS Score87.36	11
Critical View of Safety assessment	West China Hospital (external val)	Overall Score92.5	11
Surgical Phase Recognition	University Hospital of Strasbourg (external val)	Accuracy79.8	11
Surgical Phase Recognition	Renji Hospital (external val)	Accuracy57.66	11

Showing 10 of 12 rows

Other info

Follow for update

@wizwand_team Discord