UnsafeBench

Benchmarks

Task Name	Dataset Name	SOTA Result
Harmful Content Detection	UnsafeBench	AUPRC89.5	61
Safety Classification	UnsafeBench	AUROC80.5	49
Safety evaluation	UnsafeBench	F1 Score89	39
Safety Classification	UnsafeBench	ECE0.061	21
Visual Compliance Verification	UnsafeBench	Unsafe F176	15
Binary Safety Classification	UnsafeBench	Sexual35.5	13
Safety Evaluation	UnsafeBench (test)	F1 Score81	11
Safety guardrailing	UnSafeBench	F1 Score64.1	9
Content Moderation	UnsafeBench Sexual category (test)	Accuracy81.4	8
Safety Red-teaming	UnsafeBench	ASR76.2	4
Multimodal Content Moderation	UnsafeBench	Accuracy76.7	4
Multimodal Content Moderation	UnsafeBench Sexual Text-Only	Accuracy81.82	3
Multimodal Content Moderation	UnsafeBench Sexual Text+Visual	Accuracy81.08	3

Showing 13 of 13 rows