ToolSandbox

Benchmarks

Task Name	Dataset Name	SOTA Result
Agent Task Completion	ToolSandbox (test)	Avg Task Reward0.704	27
Tool Use Evaluation	ToolSandbox	Similarity0.923	19
Agentic Tool-Use	ToolSandbox Multi-Tool	TS-M Score53.7	16
Tool Use	ToolSandBox (test)	Overall Score69.88	12
Multi-turn agent decision making	ToolSandbox (test)	Success Rate52.2	7
Agent Task Completion	ToolSandbox	Average Task Reward0.67	2

Showing 6 of 6 rows