Failure attribution on τ-bench

75.9Agent Accuracy

Our Baseline

Updated 5mo ago

Evaluation Results

Method	Links
Our Baseline 2026.02		75.9	32.2
Who&When* 2026.02		62	17.2