Share your thoughts, 1 month free Claude Pro on usSee more

Multi-discipline reasoning on MMMU (val) (Accuracy)

81.8Accuracy

GPT-5

Updated 1mo ago

Evaluation Results

Method	Links
GPT-5 2026.03		81.8
Gemini 2.5 Pro 2026.03		79.6
Gemini 2.5 Flash 2026.03		79
GPT-5 mini 2026.03		78.7
Claude Sonnet 4.5 2026.03		77.8
InternVL3.5-8B 2026.03		73.4
Keye-VL-1.5-8B 2026.03		71.4
Qwen3-VL-8B 2026.03		69.6
GLM-4.1V-9B 2026.03		68
MiniCPM-V-4.5-8B 2026.03		67.7
Qwen3-VL-32B 2026.05		67.7
iVGR-Qwen3-VL-32B 2026.05		67.7
Qwen3-VL-4B 2026.03		67.4
InternVL3.5-4B 2026.03		66.6
iVGR-Qwen3-VL-8B 2026.05		59.8
Qwen3-VL-8B 2026.05		58
Qwen3-VL-8B 2026.05		56.8
S^3-FT 2026.05		56
Eagle2.5-8B 2026.03		55.8
iVGR-Qwen2.5-VL-7B 2026.05		55.2
S^3-FT 2026.05		54.9
Qwen2.5-VL-7B 2026.05		54.4
MolmoPoint-8B 2026.03		53.7
Molmo2-8B 2026.03		53
Qwen2.5-VL-7B 2026.05		52.4
S^3-FT 2026.05		51
Molmo2-4B 2026.03		50.9
S^3-FT 2026.05		49.6
PLM-8B 2026.03		46.1
MolmoPoint-8B-O-7B 2026.03		45.8
PLM-3B 2026.03		41.2
Qwen2.5-VL-72B Instruct 2026.02		37.2
Qwen2.5-VL-32B + AT-RL (Ours) 2026.02		36.5
Qwen2.5-VL-32B + VPPO 2026.02		34.1
Gemini 2.0 Flash 2026.02		32.9
Qwen2.5-VL-32B Instruct 2026.02		31.7
OpenAI GPT-4o 2026.02		31.1
Claude 3.5 Sonnet 2026.02		30.5