General VQA on HallusionBench

73.48Accuracy

Gemini 3-Pro

Updated 2mo ago

Evaluation Results

Method	Links
Gemini 3-Pro 2026.02		73.48
Qwen2.5-VL-7B-Instruct + VPPO 2026.05		70.8
Perception-R1-7B 2026.05		70
Qwen2.5-VL-7B-Instruct + Faithful-MR1 2026.05		69.8
Qwen2.5-VL-7B-Instruct + GRPO 2026.05		69.3
Vision-R1-7B 2026.05		68.1
Vision-SR1-7B 2026.05		68.1
Qwen2.5-VL-3B-Instruct + Faithful-MR1 2026.05		68
Qwen2.5-VL-3B-Instruct + VPPO 2026.05		67.7
Qwen2.5-VL-3B-Instruct + GRPO 2026.05		67.2
GPT-5 2026.02		66.58
Qwen2.5-VL-7B-Instruct 2026.05		65
Qwen2.5-VL-3B-Instruct 2026.05		64.8
Qwen3-VL 2026.02		64.01
ERNIE 5.0 2026.02		63.87
Gemini 2.5-Pro 2026.02		63.7
Qwen3-VL 2026.03		51.89
Intern3.5-VL 2026.03		48.18
FineViT-VL 2026.03		46.54
Aquila-VL 2026.03		42.07