Share your thoughts, 1 month free Claude Pro on usSee more

Harmfulness Refusal on HarmBench Risk 3: Harmful Reduction

0Attack Success Rate

M+

Updated 2mo ago

Evaluation Results

Method	Links
M+ 2025.11		0	9.0158
M' 2025.11		0	9.0158
M+ 2025.11		0	9.2847
M' 2025.11		0	9.2847
M+ 2025.11		0	8.7634
M' 2025.11		0	8.7634
M_safeprompt 2025.11		28.1	8.4592
M_safeprompt 2025.11		40.3	8.6734
M_safeprompt 2025.11		57.4	8.9421
M 2025.11		68	2.2545
M 2025.11		68	2.3179
M 2025.11		70	2.1823