Share your thoughts, 1 month free Claude Pro on usSee more

Scientific Agent Task on ScienceAgentBench (test)

18.6Success Rate (SR)

SciNav

Updated 4mo ago

Evaluation Results

Method	Links
SciNav 2026.03		18.6	69.9	0.342
SciNav 2026.03		16.1	66	0.512
Self-Debug 2026.03		15	67	0.03
Self-Debug 2026.03		14.7	71.2	0.057
OpenHands 2026.03		13.1	62.8	1.093
Direct Prompting 2026.03		7.5	42.2	0.011