Jailbreak attack success rate

Benchmarks

Dataset Name	SOTA Method	Metric
HarmBench	RLVR	Attack Success Rate (Generated)97	55	1mo ago
Harmful prompts dataset		Attack Success Rate97	49	4mo ago
MultiJail	Self Defense	ASR (EN)13.02	18	4mo ago
AdvBench-x	SmoothLLM	ASR (English)7.94	18	4mo ago
VAJA	ZO-SPSA	Identity Attack Success Rate92.3	15	4mo ago
HEx-PHI (test)	CS-DJ	ASR Category 186.67	12	4mo ago
AdvBench-Vision	iDecep	Total Attack Success Rate98	8	2mo ago
HarmBench (50 randomly sampled questions)	GPT-OSS-20B	ASR84	8	4mo ago
AdvBench LLaMA-3.1-70B	HMNS	ASR (SMO, GPT-4o)39.7	5	3mo ago
AdvBench Phi-3 Medium 14B Instruct	HMNS	ASR (SMO, GPT-4o)41	5	3mo ago
AdvBench LLaMA-2-7B-Chat	HMNS	ASR (SMO, GPT-4o)40	5	3mo ago
JBShield (test)	JB-GCG	Attack Success Rate (ASR)95	1	2mo ago

Showing 12 of 12 rows