Share your thoughts, 1 month free Claude Pro on usSee more

Multimodal Reasoning on MMBench

90.63Accuracy

AutoNPO

Updated 25d ago

Evaluation Results

Method
AutoNPO 2026.04	90.63	-
RLEP 2026.04	90.45	-
ExGRPO 2026.04	90.44	-
NPO 2026.04	90.41	-
NPO 2026.04	90.3	-
GRPO 2026.04	90.29	-
Qwen3-VL-8B-Instruct 2026.04	89.79	-
LUFFY 2026.04	89.49	-
Sora-2 Audio 2025.11	89	-
Qwen3-VL-8B-Thinking 2026.02	87	-
Gemini 2.5 Pro 2025.11	86.9	-
GPT-5 high 2025.11	84.2	-
Qwen2.5-VL-7B 2026.06	83.6	-
Qwen2.5 2026.05	83.5	-
InternVL3 2026.05	83.4	-
LLaDA-V + Ours 2026.05	83.3	-
SAP 2026.02	82.9	-
LLaDA-V 2026.05	82.9	-
InternVL2-8B + RP 2024.08	82.7	-
InternVL2-8B-FT 2024.08	82.5	-
Claude Sonnet 4.5 2025.11	82.5	-
LLaVA-OV 2026.05	80.8	-
Phantom-3.8B 2024.09	80.4	-
TroL-3.8B 2024.09	79.2	-
RECAP 2025.10	78.52	-
Coreset 2025.10	78.09	-
Reasoning-only 2025.10	77.84	-
Phantom-1.8B 2024.09	76.6	-
TroL-1.8B 2024.09	76.1	-
VLAA-Thinker-7B 2025.10	75.95	-
Uniform 2025.10	75.34	-
V-Skip 2026.06	74.7	-
PropMix 2025.10	73.54	-
LwF 2025.10	73.11	-
VTW 2026.06	72.8	-
ShortV 2026.06	72.8	-
Phantom-0.5B 2024.09	72.7	-
LaViDa + Ours 2026.05	72	-
Qwen2.5-VL-7B 2025.10	71.82	-
CAST 2026.05	71.74	-
LaViDa 2026.05	71.7	-
OpenVLThinker-7B 2025.10	71.53	-
CAST 2026.05	70.86	-
Random 2026.05	70.82	-
MM1-MoE-3B×64 2024.09	70.8	-
Qwen3-VL-8B-Instruct 2026.02	70.7	-
CAST 2026.05	70.51	-
Random 2026.05	70.19	-
Random 2026.05	70.12	-
Vision-R1-7B 2025.10	69.46	-
MGM-7B 2024.08	69.3	-
V-Skip 2026.06	69.3	-
LLaVA-NeXT-13B 2026.06	69.2	-
VTW 2026.06	69.2	-
MiniCPM-V2-2.8B 2024.09	69.1	-
ShortV 2026.06	69.1	-
VTW 2026.06	68.8	-
MGM-7B + RP 2024.08	68.7	-
LLaVA-1.5-13B 2026.06	68.7	-
ShortV 2026.06	68.7	-
V-Skip 2026.06	68.7	-
Bunny-3B 2024.09	68.6	-
LLaVA-1.6 2026.05	68.1	-
MoE-LLaVA-2.7B×4 2024.09	68	-
MM1-3B 2024.09	67.8	-
STS 2026.06	67.8	-
LLaVA-v1.5-13B 2025.08	67.7	-
Vanilla 2026.06	67.7	-
AgilePrune 2026.06	67.6	-
Vanilla 2026.06	67.4	-
LLaVA-NeXT-7B 2026.06	67.2	-
ShortV 2026.06	67.2	-
VTW 2026.06	67.1	-
Zoo-Prune 2026.06	67	-
TinyLLaVA-3.1B 2024.09	66.9	-
TinyLLaVA-Sig-Phi-3.1B 2024.09	66.9	-
V-Skip 2026.06	66.8	-
VisionZip 2026.06	66.7	-
Imp-v1-3B 2024.09	66.5	-
Fourier-LLaVA 2025.08	66.4	-
STS 2026.06	66.3	-
Fourier-LLaVA 2025.08	66.2	-
AgilePrune 2026.06	66.2	-
LLaVA-1.5-7B + RP 2024.08	66.1	-
DivPrune 2026.06	66.1	-
ATP-LLaVA 2025.08	66	-
CoFi-Dec 2025.12	65.9	-
PruMerge 2025.08	65.7	-
Fourier-LLaVA 2025.08	65.6	-
DART 2026.06	65.4	-
DeFG 2025.12	65.2	-
V-Skip 2026.06	65	-
PruMerge 2025.08	64.9	-
VisionZip 2026.06	64.9	-
Zoo-Prune 2026.06	64.8	-
ShortV 2026.06	64.8	-
Vanilla 2026.04	64.7	-
ATP-LLaVA 2025.08	64.7	-
Fourier-LLaVA 2025.08	64.7	-
DART 2026.06	64.7	-

Showing 100 of 266 rows