Share your thoughts, 1 month free Claude Pro on usSee more

Deep Search and Research Reasoning on xbench DeepSearch 2510 (Pass@1)

75Pass@1 Accuracy

Tongyi DeepResearch

Updated 2mo ago

Evaluation Results

Method	Links
Tongyi DeepResearch 2025.10		75
DeepSeek-V3.1 2025.10		71
GLM 4.5 2025.10		70
Kimi Researcher 2025.10		69
OpenAI o3 2025.10		67
Claude-4-Sonnet 2025.10		65
Kimi K2 2025.10		50