Share your thoughts, 1 month free Claude Pro on usSee more

Multi-image Reasoning on Mantis

81.71Accuracy

Qwen3-VL + S2H-DPO

Updated 3mo ago

Evaluation Results

Method	Links
Qwen3-VL + S2H-DPO 2026.04		81.71
Qwen3-VL 2026.04		79.61
Qwen2.5-VL + S2H-DPO 2026.04		74.19
DPS (Ours) 2026.01		71
CcDPO 2026.01		69.1
VISC 2026.01		69.1
Qwen2.5-VL 2026.04		68.66
Two-stage RL (Ours) 2026.01		68.4
InternVL2.5 2026.01		67.7
DAPO (Ours) 2026.01		67.7
Qwen2.5-VL 2026.01		64.5
LLaVA-OneVision 2026.01		64.2
mPLUG-Owl3 2026.01		63.1
GPT-4V 2026.01		62.7
LLaVA-NeXT-Interleave 2026.01		62.7
GPT-4V 2026.04		62.7
MIA-DPO 2026.01		60.4
Qwen2.5-VL + MIA-DPO 2026.04		59.45
Mantis-Idefics2 2026.01		57.1
VideoRFT 2026.01		56.7
VILA1.5 2026.01		51.2
TW-GRPO 2026.01		49.8
Idefics2 2026.04		48.9
LLaVA-v1.5 + S2H-DPO 2026.04		47.93
LLaVA 1.6 2026.01		45.6
LLaVA-v1.6 2026.04		45.6
InstructBLIP 2026.04		45.6
CogVLM 2026.04		45.2
LLaVA-v1.5 + MIA-DPO 2026.04		44.2
LLaVA-v1.5 2026.04		41.9
Qwen-VL-Chat 2026.04		39.2
Emu2-Chat 2026.04		37.8
LLaVA-v1.5 + POVID 2026.04		37.8
VideoLLaVA 2026.04		35.9
LLaVA-v1.5 + HA-DPO 2026.04		34.6
LLaVA-v1.5 + LLaVA-RLHF 2026.04		30.4
Fuyu 2026.04		27.2
OpenFlamingo-v2 2026.01		12.4