Failure Attribution on Magentic

81.2Agent Accuracy

Our Baseline

Updated 5mo ago

Evaluation Results

Method	Links
Our Baseline 2026.02		81.2	56.3
Who&When* 2026.02		6.2	56.3