JailbreakBench

Benchmarks

Task Name	Dataset Name	SOTA Result
Jailbreak Attack	JailbreakBench	ASR100	242
Jailbreak Attack	JailbreakBench	ASR@100	132
Jailbreak Robustness	JailbreakBench	Harmbench ASR0	88
Jailbreak Attack	JailbreakBench	Attack Success Rate (ASR)0	76
Unsafe Robustness	JailbreakBench	Unsafe Rate0	72
Jailbreak Attack	JailbreakBench (JBB)	ASR0	62
Safety Evaluation	JailbreakBench (JBB) (test)	ASR (Llama-Guard-3-8B)1.12	56
Refusal suppression	JailbreakBench (test)	Attack Success Rate (ASR)0	54
Jailbreaking	JailbreakBench	Attack Success Rate (ASR)2	53
Jailbreaking	JailbreakBench	ASR85	42
Jailbreak Attack	JailbreakBench (JBB) (test)	Attack Success Rate (ASR)98	42
Jailbreak Attack	JailbreakBench	Attack Success Rate (ASR)96	40
Jailbreak Attack	JailbreakBench	ASR197	39
Jailbreak	JailbreakBench (original split)	ASR@195.15	33
Adversarial Attack	JailbreakBench 50% stratified per-category sample (48 requests)	HB ASR0	32
Jailbreak Defense	JailbreakBench	ASR (GCG)0	30
Jailbreak Attack	JailbreakBench	ASR91	27
Safety Evaluation	JailbreakBench (out-of-domain)	ASR (OM)73	26
Thinking Collapse Analysis	JailbreakBench (JBB)	Thinking Collapse Rate0	25
Single-turn Jailbreak Attack	JailbreakBench single-turn	ASR9	21
Jailbreaking	JailbreakBench	ASR (Detoxify)0	20
Jailbreak Defense	JailbreakBench	Rate of Response Safety70	20
Adversarial and Jailbreaking Attack Detection	JailbreakBench	AUROC0.8622	20
Jailbreak Attack	JailbreakBench	Llama2 7B Attack Success Rate77	18
Red-teaming Attack Success Rate	JailbreakBench (test)	ASR (Vicuna)82	18

Showing 25 of 65 rows