Share your thoughts, 1 month free Claude Pro on usSee more

Natural Language Visual Reasoning on NLVR2

88.8Accuracy

GPT-4V

Updated 3mo ago

Evaluation Results

Method	Links
GPT-4V 2026.04		88.8	-
Ours (masked) (LLaVA-OV-7B) 2026.01		87.3	-
Idefics2 2026.04		86.9	-
LLaVA-OV-7B 2026.01		84.2	-
Qwen2.5-VL + S2H-DPO 2026.04		74.67	-
Qwen2.5-VL 2026.04		74.28	-
Qwen2.5-VL + MIA-DPO 2026.04		74.18	-
Ours (LLaVA-OV-1.5B) 2026.01		73.7	-
EWC 2026.03		72.85	-
EWC-DR 2026.03		72.77	-
LLaVA-OV-1.5B 2026.01		70.9	-
EWC-DR 2026.03		70.65	9.31
Ours (masked) (LLaVA-OV-1.5B) 2026.01		69	-
Ours (LLaVA-OV-0.5B) 2026.01		68	-
MMICL 2023.09		66.6	-
EWC-DR 2026.03		66.51	27.48
Ours (masked) (LLaVA-OV-0.5B) 2026.01		65.1	-
EWC 2026.03		64.95	34.59
LLaVA-OV-0.5B 2026.01		61.2	-
InstructBLIP 2026.04		60.3	-
LLaVA-v1.6 2026.04		58.9	-
Qwen-VL-Chat 2026.04		58.7	-
CogVLM 2026.04		58.6	-
Emu2-Chat 2026.04		58.2	-
VideoLLaVA 2026.04		56.5	-
LLaVA-v1.5 + S2H-DPO 2026.04		55.59	-
LLaVA-v1.5 + MIA-DPO 2026.04		54.2	-
InstructionBlip 2023.09		53.95	-
EWC 2026.03		52.13	90.66
LLaVA-v1.5 2026.04		52.1	-
LLaVA-v1.5 + LLaVA-RLHF 2026.04		51.8	-
LLaVA-v1.5 + HA-DPO 2026.04		51.6	-
Fuyu 2026.04		51.1	-
Qwen3-VL + S2H-DPO 2026.04		50.61	-
Qwen3-VL 2026.04		49.71	-
OTTER 2023.09		47.2	-
Qwen2VL-2B 2026.01		41.6	-
Qwen2VL-7B 2026.01		41.5	-
LLaVA-v1.5 + POVID 2026.04		21.4	-
InternVL2-2B 2026.01		18.9	-
InternVL2-8B 2026.01		8.7	-