HHA

Benchmarks

Task Name	Dataset Name	SOTA Result
Reward Scoring	HHA benchmark	Harmlessness Score (Base)66.97	30
Alignment Reward Evaluation	HHA (test)	Harmless Score64	20
RLHF Alignment Evaluation	HHA	Harmlessness Win Rate (Base, A)76.1	6

Showing 3 of 3 rows