Share your thoughts, 1 month free Claude Pro on usSee more

Multi-hop Reasoning and Fact-checking on FRAMES

90.6Average @3

Tongyi-DeepResearch-30B

Updated 3mo ago

Evaluation Results

Method	Links
Tongyi-DeepResearch-30B 2025.11		90.6
MiroThinker-v1.0-72B 2025.11		87.1
MiroThinker-v1.0-30B 2025.11		85.4
Claude-4.5-Sonnet 2025.11		85
OpenAI-o3 2025.11		84
DeepSeek-V3.1 2025.11		83.7
SFR-DeepResearch-20B 2025.11		82.8
Claude-4-Sonnet 2025.11		80.7
MiroThinker-v1.0-8B 2025.11		80.6
DeepSeek-V3.2 2025.11		80.2
Kimi-Researcher 2025.11		78.8
WebExplorer-8B-RL 2025.11		75.7
Kimi-K2-0905 2025.11		58.1