Share your thoughts, 1 month free Claude Pro on usSee more

Helpfulness Evaluation on Helpfulness (evaluation set)

84.05Win Rate

SafeDPO

Updated 4mo ago

Evaluation Results

Method	Links
SafeDPO 2025.05		84.05	9.42	6.53
SafeRLHF 2025.05		77.74	11.19	11.07
DPO-HARMLESS 2025.05		65.12	21.08	13.8
DPO-SAFEBETTER 2025.05		55.65	31.66	12.69
DPO-HELPFUL 2025.05		37.77	39.15	23.09