Share your thoughts, 1 month free Claude Pro on usSee more

Search Agent Evaluation on XBench

78Average Score

DeepSeek-V3.2

Updated 2mo ago

Evaluation Results

Method	Links
DeepSeek-V3.2 2026.05		78
GPT-5 High 2026.05		77
MiniMax-M2.1 2026.05		68
Qwen3-8B + ACTGUIDE-RL 2026.05		44
Qwen3-4B-Instruct + ACTGUIDE-RL 2026.05		37
WebSailor-7B 2026.05		34
Qwen3-8B + RL 2026.05		33
Qwen3-8B 2026.05		32
ARPO-8B 2026.05		25
WebThinker-32B-RL 2026.05		24
Qwen2.5-7B-Instruct + ACTGUIDE-RL 2026.05		24
Qwen2.5-7B-Instruct + RL 2026.05		22
Qwen2.5-7B-Instruct 2026.05		19
Qwen3-4B-Instruct + RL 2026.05		18
Qwen2.5-3B-Instruct + ACTGUIDE-RL 2026.05		16
Qwen3-4B-Instruct 2026.05		14
Qwen2.5-3B-Instruct + RL 2026.05		10
Qwen2.5-3B-Instruct 2026.05		8