MCP-Bench

Benchmarks

Task Name	Dataset Name	SOTA Result
Tool-augmented agent execution	MCP-Bench	Task Fulfillment53.5	32
Agentic Tool Use	MCP-Bench 3-server 1.0	Overall Score3.95	20
Agentic Tool Use	MCP-Bench Single 1.0	Overall Score3.54	20
Agent Performance Evaluation	MCP-Bench	Task Fulfillment46.8	7
End-to-End Question Answering	MCP-Bench	Accuracy (Human)87.5	4

Showing 5 of 5 rows