Safety Evaluation Set

Benchmarks

Task Name	Dataset Name	SOTA Result
LLM Safety	Safety Evaluation Set	Harmful Response Rate1.66	25
Adversarial Attack Defense	Safety Evaluation Set GCG, AutoDAN, DeepInception, Prefilling, Intent Laundering n=200 (full public set)	GCG Attack Success Rate0	11
Content Moderation	Safety Evaluation Set Moderation (held-out target labels)	AUROC0.89	6
Sentiment Analysis	Safety Evaluation Set Sentiment (held-out target labels)	AUROC97.5	6
Jailbreaking Detection	Safety Evaluation Set Jailbreaking (held-out target labels)	AUROC97.4	6
Toxicity Detection	Safety Evaluation Set Toxicity (held-out target labels)	AUROC97.6	6

Showing 6 of 6 rows