Share your thoughts, 1 month free Claude Pro on usSee more

Expert-Level Human Knowledge Reasoning on Humanity's Last Exam

38.3Pass@1

Tongyi DeepResearch

Updated 2mo ago

Evaluation Results

Method	Links
Tongyi DeepResearch 2025.10		38.3
Tongyi DeepResearch 2025.10		32.9
DeepSeek-V3.1 2025.10		29.8
Gemini DeepResearch 2025.10		26.9
Kimi Researcher 2025.10		26.9
OpenAI DeepResearch 2025.10		26.6
OpenAI o3 2025.10		24.9
GLM 4.5 2025.10		21.2
Claude-4-Sonnet 2025.10		20.3
Kimi K2 2025.10		18.1
OpenAI o4-mini 2025.10		17.7