Share your thoughts, 1 month free Claude Pro on usSee more

Agent Execution on CRMArena (test)

49Execution Accuracy

Gemini-2.5 Pro

Updated 4mo ago

Evaluation Results

Method	Links
Gemini-2.5 Pro 2026.03		49
Qwen3-8B Agentic GRPO 2026.03		35
Claude-3.5-Sonnet 2026.03		34
GPT-4o 2026.03		32
Qwen3-8B SFT 2026.03		30
Qwen3-8B Base 2026.03		25
xLAM-2-70B 2026.03		12
ToolAce 2026.03		10