Share your thoughts, 1 month free Claude Pro on usSee more

Safety Alignment on Harmful Dataset (test)

81Harmful Score

Non-Aligned

Updated 4mo ago

Evaluation Results

Method	Links
Non-Aligned 2024.02		81
Non-Aligned 2024.02		79.2
Non-Aligned 2024.02		77.6
Non-Aligned 2024.02		65.6
SFT 2024.02		60
KL 2024.02		56.6
Vaccine 2024.02		56.6
SFT 2024.02		55.2
KL 2024.02		55.2
Vlguard 2024.02		54.4
KL 2024.02		54.4
Vlguard 2024.02		54
KL 2024.02		54
Vlguard 2024.02		53.6
KL 2024.02		53.6
SFT 2024.02		52.6
EWC 2024.02		50.6
EWC 2024.02		50.6
EWC 2024.02		50.6
EWC 2024.02		50.6
EWC 2024.02		50.6
Vlguard 2024.02		50
SFT 2024.02		49.8
Vlguard 2024.02		49.4
SFT 2024.02		48.6
Vaccine 2024.02		48.2
Vaccine 2024.02		42.8
Vaccine 2024.02		42.4
Vaccine 2024.02		42.2
Non-Aligned 2024.02		34.2