Share your thoughts, 1 month free Claude Pro on usSee more

Expert-Level Question Answering on Humanity's Last Exam

40.9Accuracy

Seed-1.8

Updated 1mo ago

Evaluation Results

Method	Links
Seed-1.8 2026.02		40.9
DeepSeek-V3.2 2026.02		40.8
OpenAI-GPT-5-high 2026.02		35.2
Tongyi-DeepResearch 30B 2026.02		32.9
Minimax-M2 2026.02		31.8
WebSailor-V2-30B-A3B 2026.02		30.6
GLM-4.6 2026.02		30.4
IterResearch-30B-A3B 2026.02		28.8
Gemini Deep Research 2026.02		26.9
Kimi-Researcher 2026.02		26.9
Claude-4.5-Sonnet 2026.02		24.5
MiroThinker 8B 2026.02		21.5
AgentCPM-Explore-4B 2026.02		19.1
Merged-Model-4B 2026.02		17.4