Share your thoughts, 1 month free Claude Pro on usSee more

General AI Assistant Reasoning on GAIA

67.4Pass@1 Accuracy

OPENAI DEEPRESEARCH

Updated 4mo ago

Evaluation Results

Method	Links
OPENAI DEEPRESEARCH 2026.03		67.4
MIRO-30B + WEDAS 2026.03		66.99
MIRO-30B + MIROFLOW 2026.03		63.11
GPT-5-MINI + WEDAS 2026.03		57.28
WEBSAILOR-72B 2026.03		55.4
WEBSAILOR-32B 2026.03		53.2
ASEARCHER-WEB-32B 2026.03		52.8
WEBDANCER-QWQ-32B 2026.03		51.5
GPT-5-MINI + MIROFLOW 2026.03		51.46
WEBTHINKER-32B-RL 2026.03		48.5
SEARCH-O1-32B 2026.03		39.8
O4-MINI 2026.03		33.3
GPT-4.1 2026.03		22.3
QWQ-32B 2026.03		22.3
GPT-4O 2026.03		17.5
QWEN-2.5-72B 2026.03		14.6
QWEN-2.5-32B 2026.03		13.6