Share your thoughts, 1 month free Claude Pro on usSee more

Vision-Language Hallucination Evaluation on HallBench

64.2Accuracy

Octopus-8B (Ours)

Updated 4mo ago

Evaluation Results

Method	Links
Octopus-8B (Ours) 2026.02		64.2
Qwen3-VL-8B-Instruct + DAPO 2026.02		63.7
MiMo-VL-7B-RL 2026.02		63.5
Qwen3-VL-8B-Instruct + GRPO 2026.02		62.8
Qwen3-VL-8B-Thinking 2026.02		62.7
Qwen3-VL-8B-Instruct + GSPO 2026.02		62.5
Qwen3-VL-8B-Instruct + GSPO 2026.02		62.3
MiMo-VL-7B-SFT 2026.02		62.1
Qwen3-VL-8B-Instruct + GRPO 2026.02		61.6
Qwen3-VL-8B-Instruct + SRPO 2026.02		61.2
Qwen3-VL-8B-Instruct + SRPO 2026.02		60.8
Qwen3-VL-8B-Instruct 2026.02		58.8
GPT-4o 2026.02		56.2
Claude-3.7-Sonnet 2026.02		55.4
InternVL3.5-8B-RL 2026.02		54.5