Share your thoughts, 1 month free Claude Pro on usSee more

Agent Execution on EnterpriseBench (test)

55Execution Accuracy

Claude-3.5-Sonnet

Updated 4mo ago

Evaluation Results

Method	Links
Claude-3.5-Sonnet 2026.03		55
Gemini-2.5 Pro 2026.03		55
Qwen3-8B Agentic GRPO 2026.03		51
GPT-4o 2026.03		47
ToolAce 2026.03		41
xLAM-2-70B 2026.03		40
Qwen3-8B SFT 2026.03		38
Qwen3-8B Base 2026.03		35