R-judge

Benchmarks

Task Name	Dataset Name	SOTA Result
Agent Safety	R-Judge	Accuracy97.3	92
Trajectory-level safety evaluation	R-judge (test)	Accuracy95.2	32
Binary safe/unsafe classification	R-Judge (test)	Accuracy57.8	4

Showing 3 of 3 rows