Share your thoughts, 1 month free Claude Pro on usSee more

Multi-modal Reasoning on MMVet (test)

80.8Accuracy

GPT-4o

Updated 2mo ago

Evaluation Results

Method	Links
GPT-4o 2026.01		80.8	-
MMCTAgent 2024.05		74.24	-
Qwen-VL-Max 2026.01		73.2	-
R1-OneVision 2026.01		71.6	440.7
FAST-7B 2026.01		71.2	114.1
GPRO-7B 2026.01		70.9	118.8
MM-R1 2026.01		70.6	137.9
MMCTAgent 2024.05		70.51	-
Claude-3.5 Sonnet 2026.01		68.7	-
OpenVLThinker 2026.01		68.5	312.7
Qwen2.5-VL-7B 2026.01		67.1	132.5
LMM-R1 2026.01		65.9	166.3
GPRO-3B 2026.01		65.2	108.4
Gemini 1.5 Pro 2024.05		64.2	-
FAST-3B 2026.01		64	112.7
Qwen2-VL-7B 2026.01		62	132.5
Curr-ReFT 2026.01		62	117.6
VideoAuto-R1 2026.01		61.9	-
Qwen2.5-VL-3B 2026.01		61.3	138.8
GPT-4V 2024.05		60.2	-
Qwen2.5-VL-7B 2026.01		60	-
CNTP 2025.07		58.5	-
Stochastic Decoding 2025.07		53.5	-
CNTP 2025.07		53.5	-
Stochastic Decoding 2025.07		53	-
Claude 3 Opus 2024.05		51.7	-
Claude 3 Sonnet 2024.05		51.3	-
Greedy Decoding 2025.07		48	-
Greedy Decoding 2025.07		47.7	-
Mulberry 2026.01		43.9	218.3
Full 2026.05		30.9	-
MAGIC 2026.05		29.8	-
ICONS 2026.05		29.7	-
Random 2026.05		29.5	-
CC12M Split 3 2026.04		28.4	-
PivotMerge 2026.04		27.8	-
TIES Merging 2026.04		27.3	-
Weight Average 2026.04		26.9	-
MetaGPT 2026.04		26.6	-
Self-Filter 2026.05		26.6	-
CC12M Split 1 2026.04		26.3	-
TIES w/ DARE 2026.04		24.3	-
TSV-M 2026.04		23.2	-
Task Arithmetic 2026.04		21.6	-
EL2N 2026.05		21.1	-
CC12M Split 5 2026.04		20.6	-
CC12M Split 2 2026.04		20	-
CC12M Split 4 2026.04		17.5	-
Iso-C 2026.04		8.2	-