Share your thoughts, 1 month free Claude Pro on usSee more

Enterprise Task Completion on EnterpriseBench

0.47Execution Score

GPT-4o

Updated 4mo ago

Evaluation Results

Method	Links
GPT-4o 2026.03		0.47
GPT-4o 2026.03		0.44
ToolAce 2026.03		0.41
XLAM-2-70B 2026.03		0.4
ToolAce 2026.03		0.39
XLAM-2-70B 2026.03		0.39
Qwen3-4B (Agentic GRPO) 2026.03		0.38
Qwen3-4B (Agentic GRPO) 2026.03		0.36
Qwen3-4B (SFT) 2026.03		0.32
Qwen3-4B (SFT) 2026.03		0.31
Qwen3-4B (Base) 2026.03		0.27
Qwen3-4B (Base) 2026.03		0.25