Share your thoughts, 1 month free Claude Pro on usSee more

Multi-step Reasoning and Factuality on FRAMES (Pass@1)

90.6Pass@1

Tongyi DeepResearch

Updated 2mo ago

Evaluation Results

Method	Links
Tongyi DeepResearch 2025.10		90.6
OpenAI o3 2025.10		84
DeepSeek-V3.1 2025.10		83.7
Claude-4-Sonnet 2025.10		80.7
GLM 4.5 2025.10		78.9
Kimi Researcher 2025.10		78.8
Kimi K2 2025.10		72