Share your thoughts, 1 month free Claude Pro on usSee more

Fact-based Question Answering on FVQA (test)

72.61Accuracy

Gemini-3-Pro

Updated 1mo ago

Evaluation Results

Method	Links
Gemini-3-Pro 2026.06		72.61
MM-DeepResearch 32B 2026.03		70.1
TAPO 2026.06		69.89
MM-DeepResearch-8B 2026.03		69.2
GPT-5.2 2026.06		68.78
SkyWork-R1V4 2026.06		67.2
SenseNova-MARS 2026.06		67.11
SenseNova-MARS-8B 2026.03		67.1
GPT-4o 2026.06		66.34
GPT-4o 2026.03		66.3
Qwen3-VL-8B-Instruct+SAPO 2026.06		65.61
Gemini-3-Flash 2026.06		64.89
GPT-5 2026.06		62.61
GPT-5 2026.03		62.6
MM-DeepResearch-7B 2026.03		61.9
Gemini-2.5-Flash 2026.06		61.72
DeepEyes-v2-7B 2026.03		60.6
DeepEyesV2 2026.06		60.6
Qwen3-VL-32B 2026.03		60.2
Gemini-3-Pro 2026.06		59.22
Qwen3-VL-8B 2026.03		58.7
MMSearch-R1-7B 2026.03		58.4
MMSearch-R1 2026.06		58.4
Gemini-3-Flash 2026.06		56.5
GPT-5 2026.03		54.4
GPT-5 2026.06		54.39
Qwen3-VL-32B-Instruct 2026.06		54.28
Qwen3-VL-8B-Instruct 2026.06		53.61
Qwen3-VL-8B 2026.03		53.6
Qwen2.5-VL-32B-Instruct 2026.06		52.22
GPT-5.2 2026.06		50.94
GPT-4o-mini 2026.06		50
GPT-4o 2026.03		48
GPT-4o 2026.06		48
Gemini-2.5-Flash 2026.06		43.78
Visual-ARFT 2026.06		41.72
Visual-ARFT-7B 2026.03		41.7
GPT-4o-mini 2026.06		36.83
Qwen2.5-VL-7B-Instruct 2026.06		36
Qwen3-VL-32B 2026.03		34.1
Qwen3-VL-32B-Instruct 2026.06		32.17
Qwen2.5-VL-32B-Instruct 2026.06		30.5
Qwen2.5-VL-7B-Instruct 2026.06		26.28
Qwen3-VL-8B-Instruct 2026.06		24.22
Qwen3-VL-8B 2026.03		24.2