Share your thoughts, 1 month free Claude Pro on usSee more

Complex Reasoning on GAIA Text

76.4Accuracy

OpenAI-GPT-5-high

Updated 3mo ago

Evaluation Results

Method	Links
OpenAI-GPT-5-high 2026.04		76.4
Minimax-M2 2026.04		75.7
GLM-4.6 2026.04		71.9
LiteResearcher-4B 2026.04		71.3
Claude-4.5-Sonnet 2026.04		71.2
Tongyi DeepResearch 30B 2026.04		70.9
Claude-4-Sonnet 2026.04		68.3
Mirothinker 8B 2026.04		66.4
SFR-DeepResearch 2026.04		66
AgentCPM-Explore-4B 2026.04		63.9
DeepSeek-V3.2 2026.04		63.5
DeepSeek-V3.1 2026.04		63.1
Kimi-K2-0905 2026.04		60.2
ASearcher QWQ v2 2026.04		58.7
DeepMiner-32B 2026.04		58.7
AFM-RL-32B 2026.04		55.3
WebSailor 30B 2026.04		53.2
WebDancer (QwQ) 2026.04		51.5
WebExplorer-8B 2026.04		50