Share your thoughts, 1 month free Claude Pro on usSee more

Model Alignment on HH-RLHF D2 (test)

20.13Harmlessness BLEU

DEFT-DPO

Updated 2mo ago

Evaluation Results

Method	Links
DEFT-DPO 2026.04		20.13	2.87	65.35	30.08	3.15	60.21	27.39	3.07	61.6
DPO 2026.04		17.04	2.25	59.51	28.4	2.69	57.05	25.33	2.56	57.72
DEFT-PRO 2026.04		8.54	1.77	62.21	22.58	2.7	58.43	18.78	2.45	59.45
SFT 2026.04		7.79	1.77	60.89	19.46	1.99	50.65	16.3	1.93	53.42
PRO 2026.04		7.72	1.75	61.3	20.27	2.06	53.07	16.87	1.98	55.29