T-Eval

Benchmarks

Task Name	Dataset Name	SOTA Result
Planning	T-Eval official subset (test)	Precision92.2	14
Agent Tool Use	T-eval (Held-Out)	Accuracy71.8	14
Tool Evaluation	T-Eval	English Score67.6	13
Tool Use	T-Eval	Overall Score80.7	12

Showing 4 of 4 rows