Our new X account is live! Follow @wizwand_team for updates
WorkDL logo mark

Jailbreak Attack Success Rate on Harmful prompts dataset

97Attack Success Rate

Daredevil-8B

-3.8822.3148.574.69Feb 24, 2024Jun 21, 2024Oct 17, 2024Feb 12, 2025Jun 10, 2025Oct 6, 2025Feb 2, 2026
Updated 4d ago

Evaluation Results

MethodLinks
2026.02
97
2026.02
96
2026.02
92.5
2026.02
92.3
2026.02
91
2026.02
89.5
2024.02
88
2024.02
88
2026.02
87.5
2024.02
84
2024.02
84
2026.02
84
2026.02
83.5
2026.02
82.5
2026.02
81.2
2024.02
80
2024.02
80
2024.02
80
2024.02
78
2024.02
78
2026.02
77.8
2024.02
76
2024.02
74
2024.02
66
2024.02
64
2024.02
56
2024.02
56
2024.02
50
2024.02
50
2026.02
49
2024.02
46
2026.02
44.4
2026.02
37.5
2026.02
28
2026.02
26.5
2026.02
19
2024.02
12
2026.02
7.1
2024.02
4
2026.02
3.7
2026.02
3.5
2026.02
1.1
2026.02
1
2026.02
1
2024.02
0
2026.02
0
2026.02
0
2026.02
0
2026.02
0