Share your thoughts, 1 month free Claude Pro on usSee more

Harmful prompt detection on OpenAI

81.3F1 Score

Stage1-SFT-v2

Updated 17d ago

Evaluation Results

Method	Links
Stage1-SFT-v2 2026.07		81.3
Stage1-SFT-v4 2026.07		80.3
Stage2-SFT 2026.07		79.8
LlamaGuard3 2025.02		79.11
Stage3-DPO 2026.07		79
GraniteGuardian-3-1-8B 2025.02		77.63
ShieldGemma-9B 2025.02		77.63
Stage1-SFT-v1 2026.07		76.8
Aegis-Guard-D 2025.02		76.44
Stage1-SFT-v3 2026.07		75.8
Ayub & Majumdar 2025.02		75.69
Abdelnabi et al. 2025.02		75.19
YuFeng-XGuard-Reason-8B 2026.07		74.7
Ayub & Majumdar 2025.02		74.56
MLPM 2025.02		74.21
Stage1-SFT-v0 2026.07		74
MLPM 2025.02		72.85
YuFeng-XGuard-Reason-0.6B 2026.07		72.8
MLPM 2025.02		72.35
WildGuard 2025.02		72.28
MLPM 2025.02		70.68
Qwen3Guard-8B-Gen 2026.07		68.5
Abdelnabi et al. 2025.02		68.45
Qwen3Guard-4B-Gen 2026.07		68.4
Abdelnabi et al. 2025.02		67.99
Ayub & Majumdar 2025.02		66.95
Ayub & Majumdar 2025.02		66.6
Qwen3Guard-0.8B-Gen 2026.07		66.2
Abdelnabi et al. 2025.02		64.59