Share your thoughts, 1 month free Claude Pro on usSee more

High-Level Reasoning on HLE

26.6Average Score

OpenAI DeepResearch

Updated 4mo ago

Evaluation Results

Method	Links
OpenAI DeepResearch 2026.01		26.6
OpenAI-o3 2026.01		20.2
Claude-4-Sonnet 2026.01		20.2
o1-preview 2026.01		11.1
Search-o1 2026.01		10.8
Reagent-U 2026.01		10.8
ARPO 2026.01		10
Atom-Searcher 2026.01		10
Reagent-R 2026.01		10
ARPO 2026.01		8.8
DeepSeek-R1-671B 2026.01		8.6
VerlTool 2026.01		8.4
Reagent w/o Agent-RRM 2026.01		6.8
WebThinker 2026.01		6.6
QwQ-32B 2026.01		6.4
Reagent-C 2026.01		4.6
Qwen3-8B 2026.01		4