OpenAI Moderation

Benchmarks

Task Name	Dataset Name	SOTA Result
Harmfulness Detection	OpenAI Moderation	Macro F1 Score92.9	59
Safety Classification	OpenAI-moderation (test)	Accuracy74.88	23
Safety Classification	OpenAI Moderation	F1 Score81.4	18
Prompt Classification	OpenAI Moderation Text Prompt	F1 Score88.89	14
Unsafe content categorization	OpenAI Moderation	Accuracy88.35	9
Multi-label Safety Categorization	OpenAI Moderation	Macro Accuracy47.67	4
Out-of-Taxonomy Risk Detection	OpenAI Moderation	Out-of-Taxonomy F167.92	4
OOD safety category inference (Stage 2)	OpenAI Moderation	Mean Reward36.45	4
Jailbreaking	OpenAI’s Moderation	Bypass Rate100	1

Showing 9 of 9 rows