Share your thoughts, 1 month free Claude Pro on usSee more

Agent Execution on EnterpriseArena (test)

71Execution Accuracy

Gemini-2.5 Pro

Updated 4mo ago

Evaluation Results

Method	Links
Gemini-2.5 Pro 2026.03		71
Claude-3.5-Sonnet 2026.03		60
GPT-4o 2026.03		45
Qwen3-8B Agentic GRPO 2026.03		43
ToolAce 2026.03		39
Qwen3-8B SFT 2026.03		35
Qwen3-8B Base 2026.03		31
xLAM-2-70B 2026.03		15