Share your thoughts, 1 month free Claude Pro on usSee more

Scene Text Visual Question Answering on ST-VQA

68.96Accuracy

Qwen 2.5 VL + ViCrop (rel-att)

Updated 3mo ago

Evaluation Results

Method	Links
Qwen 2.5 VL + ViCrop (rel-att) 2025.11		68.96
Qwen 2.5 VL + CropVLM 2025.11		68.31
Qwen 2.5 VL + ViCrop (grad-att) 2025.11		68.09
Qwen 2.5 VL + UV-CoT 2025.11		67.91
Qwen 2.5 VL 2025.11		65.49
LLaVA 1.5 + UV-CoT 2025.11		59.3
LLaVA 1.5 + ViCrop (grad-att) 2025.11		57.06
LLaVA 1.5 + ViCrop (rel-att) 2025.11		56.95
LLaVA 1.5 + CropVLM 2025.11		56.81
LLaVA 1.5 2025.11		52.48