Share your thoughts, 1 month free Claude Pro on usSee more

Harmlessness on Template T3 GPT-4 evaluation (test)

87.5Win Rate

SafeDPO

Updated 4mo ago

Evaluation Results

Method	Links
SafeDPO 2025.05		87.5	10.38	2.12
SafeRLHF 2025.05		68.75	19.38	11.88
DPO-HARMLESS 2025.05		58.38	33.25	8.38
DPO-SAFEBETTER 2025.05		43.88	45.5	10.62
DPO-HELPFUL 2025.05		27.62	49.62	22.75