ACEBench

Benchmarks

Task Name	Dataset Name	SOTA Result
Agent Performance	ACEBench Agent	Agent Score78	36
Agentic Capability Evaluation	ACEBench en	Normal Score71.4	34
Multi-turn agent task	ACEBench multi-turn (test)	Process Accuracy76.5	31
Function Calling	ACEBench	Atom Score78	20
Agentic Tool-use	ACEBench (agent-task)	Average Success Rate85.8	20
Tool-calling	ACEBench Extended Setting	Overall Score65.17	18
Tool-calling	ACEBench Standard Setting	Overall Score68.92	18
Agentic Task Performance	ACEBench Agent (test)	Average Score56.7	16
Agentic Tool-Use	ACEBench	ACE-E Score37.5	16
Tool Use	ACEBench Parallel	Accuracy81	15
Tool Use	ACEBench Single	Accuracy90	15
Agentic Performance	ACEBench Agent	End-to-End Accuracy60	15
Tool-use Task Completion	ACEBench agent subset Multi-Turn	Success Rate84.4	14
Cross-Lingual Planning	ACEBench	Score (En)78.3	14
Agent Capability Evaluation	ACEBench Agent	Multi-Step Reasoning Score95	13
Function Calling	ACEBench Normal	Accuracy75.6	13
Function Calling	ACEBench Normal (test)	Summary Score53	11
Tool-use Generalization	ACEBench Content OOD v1 (test)	Adherence40	8
Tool-use Generalization	ACEBench Format and Content OOD v1 (test)	Adherence (Ad.)38	8
Function Calling	ACEBench Special	Overall Score87.6	8
Tool-use	ACEBench	Accuracy61.8	8
Tool Use	ACEBench-en (out-of-distribution)	Normal Score77.9	8
Tool-calling	ACEBench English	Multistep (Agent)25	7
Multi-turn Dialogue	ACEBench En	MT Accuracy68	7
Agentic Performance	ACEBench-en	End-to-End Accuracy56	7

Showing 25 of 29 rows