Share your thoughts, 1 month free Claude Pro on usSee more

Multi-discipline Reasoning on EMMA core

24.6Accuracy

Llama 4 Scout

Updated 4mo ago

Evaluation Results

Method	Links
Llama 4 Scout 2026.02		24.6
Qwen2.5-VL-32B + AT-RL (Ours) 2026.02		19.4
Claude 3.5 Sonnet 2026.02		18.7
Qwen2.5-VL-32B + VPPO 2026.02		17.8
Qwen2.5-VL-72B Instruct 2026.02		17.7
Gemini 2.0 Flash 2026.02		17.2
Qwen2.5-VL-32B Instruct 2026.02		14.7
OpenAI GPT-4o 2026.02		6.3