Prompt Harmfulness Classification

Benchmarks

Dataset Name	SOTA Method	Metric
Public Prompt Harmfulness Benchmarks (ToxicChat, OpenAI Moderation, AegisSafetyTest, SimpleSafetyTests, HarmBenchPrompt)		OAI Score81	26	2mo ago
WildG	HaloGuard 1.0	F1 Score96.2	22	17d ago
WILDGUARD (test)	COLAGUARD	F1 Score89.44	18	1mo ago
OAI	HaloGuard 1.0	F1 Score87.4	10	22d ago

Showing 4 of 4 rows