Harmlessness

Benchmarks

Task Name	Dataset Name	SOTA Result
LLM Alignment	Harmlessness	WR87.85	27
Harmlessness	Harmlessness	Average Win Rate96	21
Value Alignment	Harmlessness 4	Conformity Score4.305	16
Simulation Accuracy	Harmlessness (val)	Accuracy (ACC)58.1	8
Harmlessness Evaluation	Harmlessness (evaluation set)	Win Rate48.76	5
Harmlessness evaluation	Harmlessness	Disc. Score0.5409	5

Showing 6 of 6 rows