Share your thoughts, 1 month free Claude Pro on usSee more

Agent Capability Evaluation on ACEBench Agent

95Multi-Step Reasoning Score

GPT-4.1

Updated 4mo ago

Evaluation Results

Method	Links
GPT-4.1 2026.01		95	60	77.5
Qwen3-235B-Thinking-2507 2026.01		85	63.33	74.17
Kimi-K2-Instruct-0905 2026.01		85	73.33	79.17
EnvScaler 2026.01		85	60	72.5
EnvScaler 2026.01		83.33	60	71.67
Qwen3-235B-Instruct-2507 2026.01		80	63.33	71.67
EnvScaler 2026.01		80	61.11	70.55
EnvScaler 2026.01		73.33	60	66.67
EnvScaler 2026.01		66.67	33.33	50
Qwen3-8B 2026.01		63.33	56.67	60
Qwen3-4B 2026.01		58.33	52.22	55.28
EnvScaler 2026.01		55	32.22	43.61
Qwen3-1.7B 2026.01		35	28.89	31.95