Share your thoughts, 1 month free Claude Pro on usSee more

Deep research on HLE

51Accuracy

Kimi-K2-Thinking-1T

Updated 4mo ago

Evaluation Results

Method	Links
Kimi-K2-Thinking-1T 2026.02		51
GLM-4.7-358B 2026.02		42.8
GPT-5-high 2026.02		42
DeepSeek-V3.2-Thinking-685B 2026.02		40.8
Gemini-3-pro 2026.02		38.3
Tongyi-DeepResearch-30B-A3B 2026.02		32.9
Claude-4.5-Sonnet 2026.02		32
MiniMax-M2-229B 2026.02		31.8
RE-TRAC-30B-A3B 2026.02		31.5
WebSailor-V2-30B-A3B (RL) 2026.02		30.6
IterResearch-30B-A3B 2026.02		28.8
OpenAI DeepResearch 2026.02		26.6
o3 2026.02		24.9
RE-TRAC-4B 2026.02		22.2
AgentCPM-Explore-4B 2026.02		19.1
WebExplorer-8B 2026.02		17.3