Share your thoughts, 1 month free Claude Pro on usSee more

Helpfulness on GPT-4 Evaluation Template T2 (overall)

91.6Win Rate

SafeDPO

Updated 4mo ago

Evaluation Results

Method	Links
SafeDPO 2025.05		91.6	0.64	7.76
SafeRLHF 2025.05		85.51	1.42	13.07
DPO-SAFEBETTER 2025.05		75.95	11.27	12.78
DPO-HARMLESS 2025.05		72.58	8.67	18.75
DPO-HELPFUL 2025.05		58.88	16.73	24.39