Share your thoughts, 1 month free Claude Pro on usSee more

Multimodal Deep Search on BC-VL

57.6Accuracy

GPT-5

Updated 2mo ago

Evaluation Results

Method	Links
GPT-5 2026.05		57.6
MTA-DeepSearch-32B 2026.04		53.77
Gemini-3 Pro 2026.04		51.78
GPT-5 2026.04		51.63
Claude-3.7-Sonnet 2026.05		50.4
Gemini-2.5 Pro 2026.04		49.5
Claude-4-Sonnet 2026.05		48.6
Qwen3-VL-30B + ODE-RL 2026.05		46.1
MTA-DeepSearch-8B 2026.04		44.36
Gemini-2.5 Pro 2026.05		43.1
Qwen3-VL-30B + ODE-SFT 2026.05		43.1
MM-DeepResearch 32B 2026.04		43
GPT-5 2026.05		42.9
Gemini-2.5 Pro 2026.05		42.3
Qwen3-VL-8B + ODE-RL 2026.05		41.9
GPT-5 2026.04		41.6
Gemini-3-pro 2026.04		41.35
Gemini-2.5-pro 2026.04		39.85
Qwen3-VL-8B + ODE-SFT 2026.05		39.6
Qwen3-VL-32B-Inst. 2026.04		38.69
Gemini-2.5 Flash 2026.05		38.1
Gemini-2.5 Flash 2026.05		37.1
Qwen3-VL-8B-Inst. 2026.04		35.89
Qwen3-VL-30B 2026.05		32.8
Claude-3.7-Sonnet 2026.05		32.3
Qwen3-VL-30B 2026.05		29.6
Claude-4-Sonnet 2026.05		29.3
Qwen3-VL-30B 2026.05		29.3
Webwatcher-32B 2026.04		26.7
WebWatcher-32B 2026.05		26.7
Qwen3-VL-8B 2026.05		26.1
Qwen3-VL-8B 2026.05		25.1
Qwen3-VL-32B-Inst. 2026.04		24.81
Qwen3-VL-8B 2026.05		24.3
Webwatcher-7B 2026.04		20.3
WebWatcher-7B 2026.05		20.3
Qwen3-VL-8B-Inst. 2026.04		20.05