Share your thoughts, 1 month free Claude Pro on usSee more

Safety Alignment Aggregate (Do-Not-Answer, HarmBench, HH-RLHF, Salad Bench)

0.59Aggregate Score

ShaPO-T

Updated 4mo ago

Evaluation Results

Method	Links
ShaPO-T 2026.02		0.59
ShaPO-R 2026.02		0.99
Dr.DPO 2026.02		1.2
rDPO 2026.02		3.27
ShaPO-R 2026.02		6.91
ShaPO-T 2026.02		7.71
IPO 2026.02		8.45
DPO 2026.02		8.58
cDPO 2026.02		19.12
Dr.DPO 2026.02		23.9
rDPO 2026.02		39.67
DPO 2026.02		41.21
cDPO 2026.02		41.9
IPO 2026.02		42.58
Vallina 2026.02		46.46
Vallina 2026.02		52.3
SFT 2026.02		52.68
SFT 2026.02		59.27