Share your thoughts, 1 month free Claude Pro on usSee more

Multimodal Reasoning on MMMU Pro (Accuracy)

85.6Accuracy

CoT2-Meta

Updated 24d ago

Evaluation Results

Method	Links
CoT2-Meta 2026.03		85.6
ReST-MCTS* 2026.03		81.3
Vanilla ToT 2026.03		77.8
Gemini-2.5 (Pro) 2026.01		76.96
Qwen3.5 2026.05		75.1
Gemma4 2026.05		73.8
Best-of-16 2026.03		73.1
SenseNova-U1 2026.05		72.83
Qwen3-VL (Thinking) 2026.01		72.37
Seed-1.5-VL (Thinking) 2026.01		70.6
Qwen3.5 2026.05		70.1
GPT-4o 2025.11		69.1
Greedy CoT 2026.03		68.4
Claude-3.5 Sonnet 2025.11		68.3
SenseNova-U1 2026.05		67.69
STEP3-VL-10B (PaCoRe) 2026.01		67.18
GLM-4.6V 2026.01		65.84
STEP3-VL-10B (SeRe) 2026.01		64.08
Qwen3VL 2026.05		63
OpenAI-o1 2025.06		62.4
Qwen3VL 2026.05		60.4
LongCat-Next 2026.05		60.3
GPT-4o 2026.01		56.13
DLR 2026.04		56.1
LVR 2026.04		55.3
Qwen3-VL 2026.05		53.2
PixelReasoner 2026.04		53.1
GPT-4o 2026.01		51.9
GPT-4o 2025.06		51.9
GPT-4o 2026.04		51.9
Gemini-2.0-Flash 2025.11		51.7
Claude-3.7-Sonnet 2025.06		51.5
Qwen3-VL 2026.05		51.5
Gemini-1.5-Pro 2026.01		51.47
Qwen3-VL-Seg 2026.05		51.3
MM-Eureka-Qwen-32B 2025.11		51
Qwen3-VL-8B-Thinking 2026.04		50.2
ICoT 2026.04		49.6
MM-Eureka-Qwen-32B 2025.11		49.6
Qwen2.5-VL-72B-IT 2025.06		49.5
Qwen3-VL-8B-Instruct + CARE 2025.12		46.7
Kimi-VL-16B 2025.11		46.3
MiMo-VL-7B-RL 2025.12		46.2
MiMo-VL-7B-SFT 2025.12		45.2
VL-Rethinker-7B 2025.11		42.7
Perception-R1-7B 2025.06		42.4
PRCO-7B 2026.03		42.08
Qwen3-VL-8B-Instruct + CARE 2025.12		41.7
VL-Rethinker-7B 2025.11		41.7
PAPO-D-7B 2026.03		41.5
DAPO 2026.03		41.38
Vision-SR1-7B 2026.03		41.38
MMR1-Math-v0-7B 2025.11		41.3
MMR1-Math-v0-7B 2025.11		41.3
Ours [with DPS and annealing] 2026.01		41
InternVL3.5 2026.04		41
AdaSteer 2026.06		41
Ours [with DPS] 2026.01		40.7
Ours 2026.01		40.6
MiMo-VL-7B-RL 2025.12		40.3
PAPO-G-7B 2026.03		40.11
MM-Eureka-Qwen-7B 2025.11		40
Qwen2.5-VL-7B + CARE 2025.12		39.7
VPPO-7B 2026.03		39.65
AdaSteer 2026.06		39.6
VLAA-Thinker 7B 2026.01		39.5
MM-Eureka-Qwen-7B 2025.11		39.5
MiMo-VL-7B-SFT 2025.12		39.4
Zero-shot 2026.06		39.3
ECSO 2026.06		39.3
MARS 2026.06		39.3
GRPO 2026.03		39.01
Qwen2.5-VL-7B + GSPO 2025.12		38.9
SophiaVL-R1-7B 2025.06		38.8
R1-ShareVL-7B 2026.03		38.32
MM-Eureka-7B 2025.06		38.3
Qwen2.5-VL-7B 2025.11		38.3
Perception-R1-7B 2026.03		38.2
InternVL3.5 2026.04		38.2
Qwen2.5VL 7B 2026.01		38
MixedR1 7B 2026.01		38
OpenVLThinker-7B 2025.06		37.8
SASA 2026.06		37.8
Vision-R1-7B 2025.06		37.6
BARD-VL 2026.04		37.6
LLaVA-OneVision-1.5 8B 2025.12		37.4
Qwen2.5-VL-7B + DAPO 2025.12		37.3
VLAA-Thinker-7B 2025.06		37.2
Qwen2.5-VL-7B + CARE 2025.12		37.1
Vision-Matters-7B 2026.03		37.1
Qwen2.5-VL-7B-IT 2025.06		37
Qwen3-VL 2026.03		36.5
Zero-shot 2026.06		36.5
ECSO 2026.06		36.5
MARS 2026.06		36.5
Qwen2.5-VL-7B + GRPO 2025.12		36.4
Qwen2.5-VL-7B + GSPO 2025.12		36.4
Qwen2.5-VL-7B 2025.12		36.3
NoisyRollout-7B 2026.03		36.3
AdaSteer 2026.06		36.1

Showing 100 of 171 rows