Safety Classification on Safety Evaluation Scenarios Hate Speech

99.9Safe Classification Rate

Llama-2-7B-Chat

Updated 1mo ago

Evaluation Results

Method	Links
Llama-2-7B-Chat 2026.03		99.9	0.1
Amnesia 2026.03		43.3	56.7