HHH-Alignment

Benchmarks

Task Name	Dataset Name	SOTA Result
Honesty alignment	HHH alignment	Win Rate (WR)86.1	20
Reward Modeling	HHH-Alignment Reversed	Accuracy86.2	9
Reward Modeling	HHH-Alignment Standard	Accuracy91.8	9
Reward Modeling	HHH-Alignment (OOD)	Accuracy79.8	8
Reward Modeling	HHH-Alignment OOD (test)	Score78.7	8
Reward Modeling	HHH Alignment	Accuracy87.8	4

Showing 6 of 6 rows