Share your thoughts, 1 month free Claude Pro on usSee more

Webpage Question Answering on VisualWebBench MultiUI-WQA

89.47Accuracy

GPT-5-nano

Updated 4mo ago

Evaluation Results

Method	Links
GPT-5-nano 2025.10		89.47
COGS 2025.10		88.04
MultiUI-WQA 2025.10		86.6
Decompositional CoT 2025.10		86.12
Qwen2.5-VL-7B (base model) 2025.10		85.65
Gemini 2.5 Flash-Lite 2025.10		81.85
GPT-4o-mini 2025.10		81.34
Claude Haiku 3.5 2025.10		80.86
InternVL3.5-GPT-OSS 2025.10		74.64
Phi-4-14B 2025.10		74.16
UiX-Qwen2 2025.10		68.9