Share your thoughts, 1 month free Claude Pro on usSee more

Malicious Fine-tuning Defense on BeaverTails (test)

1Harmfulness Score

DeepAlign

Updated 1mo ago

Evaluation Results

Method	Links
DeepAlign 2025.07		1	0
SimPO 2025.07		1.01	0
Vanilla 2025.07		1.06	0.3
SimPO 2025.07		1.14	3.9
Booster 2025.07		1.26	0
TAR 2025.07		1.26	3.3
DeepAlign 2025.07		1.57	0
SDD 2025.07		1.57	0
SimPO 2025.07		1.77	12.7
DeepAlign 2025.07		2.14	14.2
SDD 2025.07		2.14	0
SDD 2025.07		2.14	0
SDD 2025.07		2.39	15.1
T-Vaccine 2025.07		2.43	16.6
SDD 2025.07		2.57	0
SDD 2025.07		2.66	15.1
SDD 2025.07		2.67	21.2
DeepAlign 2025.07		2.88	18.1
SDD 2025.07		2.97	18.1
SimPO 2025.07		3.02	34.2
Vanilla 2025.07		3.17	26.7
T-Vaccine 2025.07		3.23	33.3
T-Vaccine 2025.07		3.23	26.7
Vanilla 2025.07		3.38	43.3
DeepAlign 2025.07		3.43	42.7
SimPO 2025.07		3.53	40
Vanilla 2025.07		3.58	50
Vanilla 2025.07		3.63	46.7
TAR 2025.07		3.7	33.3
SimPO 2025.07		3.8	46.7
T-Vaccine 2025.07		3.86	46.7
Booster 2025.07		3.86	53.3
Vanilla 2025.07		3.97	56.7
DeepAlign 2025.07		3.97	42.4
DeepAlign 2025.07		3.97	42.4
DeepAlign 2025.07		4	50
SimPO 2025.07		4.03	50
Booster 2025.07		4.13	66.7
Booster 2025.07		4.17	60
SimPO 2025.07		4.23	63.3
TAR 2025.07		4.3	56.7
TAR 2025.07		4.3	60
Vanilla 2025.07		4.52	80.3
Vanilla 2025.07		4.54	80