Share your thoughts, 1 month free Claude Pro on usSee more

Relational Reasoning on W-UP

98.3Accuracy (%)

THINKLITE-VL

Updated 2mo ago

Evaluation Results

Method	Links
THINKLITE-VL 2026.05		98.3
QWEN2.5-VL-7B + PGT 2026.05		98
INTERNVL3-8B + PGT 2026.05		97.9
IMAGE JIGSAW 2026.05		97.4
INTERNVL3-8B 2026.05		97.2
QWEN2.5-VL-7B 2026.05		96.8
QWEN2.5-VL-7B + SPECIALIZED MIX 2026.05		96.4
VIGORL-3B 2026.05		96.2
QWEN2.5-VL-3B + PGT 2026.05		96.1
LLAVA-NEXT-LLAMA3-8B 2026.05		93.8
LLAVA-NEXT-LLAMA3-8B + PGT 2026.05		93.8
QWEN2.5-VL-3B 2026.05		93.8
QWEN2.5-VL-3B + SPECIALIZED MIX 2026.05		93.7
LLAVA-NEXT-7B + PGT 2026.05		90.7
SPATIAL-LADDER-3B 2026.05		88.8
LLAVA-NEXT-7B 2026.05		85.2