Share your thoughts, 1 month free Claude Pro on usSee more

Adversarial Detection on Direct Harmful Prompts

100DSR

GradSafe

Updated 2mo ago

Evaluation Results

Method	Links
GradSafe 2026.05		100
GradSafe 2026.05		99.4
Linear Probe 2026.05		99
SALO 2026.05		99
SALO 2026.05		99
Linear Probe 2026.05		98.7
SALO 2026.05		98.3
No Defense (1-ASR) 2026.05		97.9
No Defense (1-ASR) 2026.05		96.9
Smooth LLM 2026.05		94.4
Linear Probe 2026.05		93.4
GradSafe 2026.05		88.1
Smooth LLM 2026.05		81.7
No Defense (1-ASR) 2026.05		65
Smooth LLM 2026.05		58.1
PPL Filter 2026.05		1.5
PPL Filter 2026.05		0
PPL Filter 2026.05		0