Share your thoughts, 1 month free Claude Pro on usSee more

Agentic Tool Use on τ²-Bench Telecom

100Accuracy

GPT 5.4

Updated 2mo ago

Evaluation Results

Method	Links
GPT 5.4 2026.05		100
Qwen3.5-27B 2026.04		99.3
Claude Opus 4.6 2026.05		89.4
Qwen3.5-122B 2026.05		86.2
Best Local 2026.05		86.2
Gemini 3.1 Pro 2026.05		85
Qwen3.5-27B 2026.05		84.9
Qwen3.5-35B 2026.05		83.1
Gemma4-26B 2026.05		78.5
Qwen3.5-9B 2026.05		75.3
GPT-5 mini 2026.04		74.1
K-EXAONE-236B-A23B 2026.04		73.5
EXAONE 4.5 33B 2026.04		73
Nemotron-Super-120B 2026.05		68.3
Gemma4-E4B 2026.05		61.3
Qwen3-VL-235B-A22B 2026.04		44.7
Granite 3.3 8B 2026.05		5.3
Granite 4.0 H-Small 2026.05		0