Share your thoughts, 1 month free Claude Pro on usSee more

Tool Use on τ-Bench (TauB) V2 (accuracy)

91.6Accuracy

Qwen3.5-122B

Updated 2mo ago

Evaluation Results

Method	Links
Qwen3.5-122B 2026.05		91.6
Best Local 2026.05		91.6
Gemma4-26B 2026.05		91.3
Gemini 3.1 Pro 2026.05		90.8
Qwen3.5-35B 2026.05		90.2
Claude Opus 4.6 2026.05		89.5
GPT 5.4 2026.05		89.2
Qwen3.5-27B 2026.05		88.4
Qwen3.5-9B 2026.05		77.1
Gemma4-E4B 2026.05		56.1
Nemotron-Super-120B 2026.05		36.8
Granite 4.0 H-Small 2026.05		17.5
Granite 3.3 8B 2026.05		10.5