Principle-based evaluation

Benchmarks

Task Name	Dataset Name	SOTA Result
Overall	Principle-based evaluation dataset	Average8.41	12
Steering	Principle-based evaluation dataset	G Score8.68	12
Judgment	Principle-based evaluation dataset	G Score8.45	12

Showing 3 of 3 rows