Share your thoughts, 1 month free Claude Pro on usSee more

Harmful prompt detection on WJB

97.55F1 Score

MLPM

Updated 1mo ago

Evaluation Results

Method	Links
MLPM 2025.02		97.55
WildGuard 2025.02		97.1
Ayub & Majumdar 2025.02		96.84
GraniteGuardian-3-1-8B 2025.02		96.75
MLPM 2025.02		94.69
MLPM 2025.02		93.65
Abdelnabi et al. 2025.02		93.48
Abdelnabi et al. 2025.02		93.27
MLPM 2025.02		92
Abdelnabi et al. 2025.02		91.13
Abdelnabi et al. 2025.02		90.44
Ayub & Majumdar 2025.02		87.53
Ayub & Majumdar 2025.02		82.85
Ayub & Majumdar 2025.02		81.31
Aegis-Guard-D 2025.02		75.44
LlamaGuard3 2025.02		67.83
ShieldGemma-9B 2025.02		59.94