Share your thoughts, 1 month free Claude Pro on usSee more

Maze Navigation on Maze Hard

97.66Accuracy

GPT-5

Updated 2mo ago

Evaluation Results

Method	Links
GPT-5 2025.11		97.66
OpenAI o3 2025.11		93.36
PTRM 2026.05		86.73
TRM 2026.05		85.3
Standard TRM, our reproduction 2026.05		83.8
OpenAI o4-mini 2025.11		78.52
HRM 2026.05		74.5
Claude 4.5 Sonnet 2025.11		68.36
Gemini 2.5 Pro 2025.11		63.28
WMAct 2025.11		50.59
PPO - Interactive 2025.11		36.52
Qwen3-14B 2025.11		28.52
PPO - EntirePlan 2025.11		26.51
Qwen3-8B 2025.11		17.76
GPT-4o 2025.11		1.56
Qwen2.5-32B-Instruct 2025.11		0.39
Qwen3-8B-Own 2025.11		0.2
Qwen2.5-7B-Instruct 2025.11		0