Share your thoughts, 1 month free Claude Pro on usSee more

Reasoning over conflicting evidence on SEAL-0

45.9Accuracy

ROMA

Updated 5mo ago

Evaluation Results

Method	Links
ROMA 2026.02		45.9
Kimi-Researcher 2026.02		36
Perplexity Deep Research 2026.02		31.5
Grok-4 2026.02		20.7
Gemini 2.5 Pro 2026.02		19.8
o3-pro 2026.02		18.9
o3 2026.02		15.3
GLM-4.6 2026.02		14.5
Gemini 2.5 Flash 2026.02		13.5
Perplexity Sonar Reasoning Pro 2026.02		13.5
Open Deep Search 2026.02		9.9
Grok-3 2026.02		5.4
Qwen3-235B-A22B 2026.02		5.4
DeepSeek-R1 2026.02		4.5