Share your thoughts, 1 month free Claude Pro on usSee more

Harmlessness Evaluation on Harmlessness (evaluation set)

48.76Win Rate

SafeDPO

Updated 4mo ago

Evaluation Results

Method	Links
SafeDPO 2025.05		48.76	48.14	3.1
SafeRLHF 2025.05		45.98	46.75	7.28
DPO-HARMLESS 2025.05		39.94	50.62	9.44
DPO-SAFEBETTER 2025.05		26.32	52.32	21.36
DPO-HELPFUL 2025.05		17.34	42.72	39.94