Share your thoughts, 1 month free Claude Pro on usSee more

Model Alignment on HH-RLHF D3 (test)

32.77Harmlessness BLEU Score

DEFT-PRO

Updated 3mo ago

Evaluation Results

Method	Links
DEFT-PRO 2026.04		32.77	3.79	73.79	34.66	3.65	71.24	34.15	3.69	71.93
DEFT-DPO 2026.04		32.03	3.95	71.45	36.77	4.16	73.12	35.49	4.1	72.67
SFT 2026.04		31.76	3.86	72.48	34.91	3.84	68.54	34.06	3.85	69.6
PRO 2026.04		29.4	3.56	72.95	33.5	3.64	68.49	33.5	3.62	69.69
DPO 2026.04		29.03	3.88	74.23	34.79	4.04	69.27	33.23	4	70.61