Share your thoughts, 1 month free Claude Pro on usSee more

Automating Agent Evaluation on AgentEvalBench

65Eval@1

EvalAgent

Updated 2mo ago

Evaluation Results

Method	Links
EvalAgent 2026.05		65
EvalAgent 2026.05		62.5
Agent-Sourcecode (B2) 2026.05		60
Agent-Sourcecode (B2) 2026.05		45
Agent-Onestage (B3) 2026.05		35
Agent-Twostage (B4) 2026.05		32.5
Agent-Twostage (B4) 2026.05		30
Agent-Onestage (B3) 2026.05		17.5
LLM-Singleturn (B1) 2026.05		17.5
LLM-Singleturn (B1) 2026.05		15