AgentEvalBench

Benchmarks

Task Name	Dataset Name	SOTA Result
Automating Agent Evaluation	AgentEvalBench	Eval@165	10
Meta-evaluation	AgentEvalBench 1.0 (test)	URF85	8
Meta-evaluation	AgentEvalBench	URF83.8	8

Showing 3 of 3 rows