Share your thoughts, 1 month free Claude Pro on usSee more

Harmlessness on GPT-4 Evaluation Template T2 (overall)

89.99Win Rate

SafeDPO

Updated 4mo ago

Evaluation Results

Method	Links
SafeDPO 2025.05		89.99	7.7	2.31
SafeRLHF 2025.05		84.85	6.8	8.34
DPO-HARMLESS 2025.05		69.47	22.12	8.41
DPO-SAFEBETTER 2025.05		57.61	19.25	23.15
DPO-HELPFUL 2025.05		33.59	24.58	41.83