Share your thoughts, 1 month free Claude Pro on usSee more

Multi-discipline Reasoning on MMMU-Pro

52.2Accuracy

Llama 4 Scout

Updated 4mo ago

Evaluation Results

Method	Links
Llama 4 Scout 2026.02		52.2
Qwen2.5-VL-32B + AT-RL (Ours) 2026.02		51.9
OpenAI GPT-4o 2026.02		51.9
Gemini 2.0 Flash 2026.02		51.7
Qwen2.5-VL-72B Instruct 2026.02		51.6
Claude 3.5 Sonnet 2026.02		51.5
Qwen2.5-VL-32B + VPPO 2026.02		49.2
Qwen2.5-VL-32B Instruct 2026.02		48.5
Qwen2.5-VL-7B-Instruct 2025.10		37.1
InternVL-3-8B-Instruct 2025.10		35.8
PLM-HoneyBee-8B 2025.10		33.8
InternVL-2.5-8B 2025.10		32
InternVL-2.5-4B 2025.10		31.1
Qwen2.5-VL-3B-Instruct 2025.10		29.8
PLM-HoneyBee-3B 2025.10		28.4
PLM-8B 2025.10		20.5
PLM-3B 2025.10		19.5
PLM-HoneyBee-1B 2025.10		18.8
InternVL-2.5-1B 2025.10		16.2
InternVL-3-1B-Instruct 2025.10		16.2
PLM-1B 2025.10		15.8