Share your thoughts, 1 month free Claude Pro on usSee more

Multi-hop Factual Reasoning on FRAMES

82.3Accuracy

ROMA

Updated 4mo ago

Evaluation Results

Method	Links
ROMA 2026.02		82.3
Kimi-Researcher 2026.02		78.8
Open Deep Search (DeepSeek-R1) 2026.02		75.3
GLM-4.6 2026.02		71.2
GPT-4o Search Preview 2026.02		65.6
GPT-4o 2026.02		50.5
Perplexity Sonar Reasoning Pro 2026.02		44.4
Perplexity 2026.02		42.4
Llama-3.1-70B 2026.02		34.3
DeepSeek-R1 2026.02		30.1