Share your thoughts, 1 month free Claude Pro on usSee more

Multimodal Reasoning on MMMU (Accuracy)

72.9Accuracy

GPT-4o

Updated 24d ago

Evaluation Results

Method	Links
GPT-4o 2025.06		72.9
Gemini-2.0-Pro 2025.06		72.6
Claude-3.7-Sonnet 2025.06		71
InternVL2.5-78B 2025.06		70.1
InternVL2.5-78B-MPO 2025.06		68.2
Qwen2.5-VL-72B 2025.06		68.2
PRCR 2026.06		66.14
Token-Replay 2026.06		65.82
Baseline 2026.06		65.05
PRCR 2026.06		64.89
Token-Replay 2026.06		64.73
Baseline 2026.06		63.68
PRCR 2026.06		63.2
Token-Replay 2026.06		62.88
Baseline 2026.06		62.02
SVIP 2026.06		61.3
Athena-7B 2025.06		61.1
Visual-PRM 2026.06		60.2
PRCR 2026.06		60.07
Token-Replay 2026.06		59.45
STRIDE 2026.06		58.7
Qwen2.5-VL-7B 2025.06		58
SRPO 2026.06		57.1
VL-PRM300K 2026.06		56.5
InternVL2.5-8B 2025.06		56.2
Baseline 2026.06		55.22
MM-Eureka 2026.06		55.2
MMS-PRM 2026.06		54.2
Base 2026.06		54.1
Op-Skip 2026.06		52.89
APET 2026.06		52.53
V2Drop 2026.06		52.44
ShortV 2026.06		52.22
AdaSteer 2026.06		52
MARS 2026.06		51.4
Vanilla 2026.06		51.33
VSkip 2026.06		51.33
Zero-shot 2026.06		51.3
ECSO 2026.06		51.3
MiniCPM-o-2.6-8B 2025.06		50.9
AdaSteer 2026.06		50.9
Zero-shot 2026.06		50.8
ECSO 2026.06		50.8
MARS 2026.06		50.8
Zero-shot 2026.06		50.8
ECSO 2026.06		50.8
AdaSteer 2026.06		50.4
AdaSteer 2026.06		50.2
APET 2026.06		50.11
Zero-shot 2026.06		50.1
ECSO 2026.06		50.1
MARS 2026.06		50.1
Vanilla 2026.06		50
V2Drop 2026.06		49.89
SASA 2026.06		49.2
SASA 2026.06		48.2
VTW 2026.06		47.33
VSkip 2026.06		47
Op-Skip 2026.06		46.89
VTW 2026.06		43.56
ShortV 2026.06		41.89
SASA 2026.06		41.3
Zero-shot 2026.06		39.8
ECSO 2026.06		39.8
AdaSteer 2026.06		39.8
MARS 2026.06		39.8
SASA 2026.06		39.4
MARS 2026.06		38.2
VSkip+ 2026.06		36.44
Vanilla 2026.06		36.11
APET 2026.06		36.11
VTW 2026.06		35.67
ShortV 2026.06		35.67
Op-Skip 2026.06		35.67
VSkip 2026.06		35.56
V2Drop 2026.06		31.67
SASA 2026.06		30.8