StrongREJECT

Benchmarks

Task Name	Dataset Name	SOTA Result
Jailbreak Attack	StrongREJECT	Attack Success Rate99.4	262
Jailbreak Attack	STRONGREJECT (held-out behaviors)	ASR (0.5 threshold)100	186
Safety Evaluation	StrongReject	Attack Success Rate0	77
Jailbreak Robustness	StrongREJECT	Mean Harmful Score0	71
Jailbreak Attack	StrongREJECT (test)	Score82.34	64
Jailbreak Attack Success	STRONGREJECT (train)	ASR (0.5)100	62
Jailbreaking Attack Success	STRONGREJECT 40 held-out behaviors	EVUS94	62
Jailbreak Robustness	STRONGREJECT (train)	EVUS93	62
Jailbreak Attack Success	STRONGREJECT 60 behaviors (train)	EVUS93	62
Safety Alignment Breaking Prevention	StrongREJECT	Harmful Score (%)0	60
Jailbreak Defense	StrongReject	Attack Success Rate1.5	54
Red-teaming Safety Evaluation	StrongReject	ASR4	53
Jailbreaking	StrongReject (test)	Attack Success Rate (ASR)89.8	42
Jailbreak Robustness	StrongReject	Direct Attack Rate67	30
Multi-turn Jailbreaking	StrongReject (test)	ASR0.34	30
Safety and Helpfulness Evaluation	StrongREJECT	Harm Rate0.2	29
Adversarial Attack	StrongREJECT Original (test)	CHR46	27
Adversarial Attack	StrongREJECT Hijacked (test)	CHR0	27
Safety Evaluation	StrongReject	H Score62	22
Harmful Request Rejection	strongREJECT	Acceptance Rate (ASR)0	21
Safety Evaluation	StrongReject	Safety Score97	21
Refusal Suppression	StrongREJECT	TCR100	20
Backdoor detection	StrongREJECT prompts with triggers	TPR100	20
Jailbreaking	StrongREJECT	ASR (Detoxify)0	20
Harmful Content Safety	StrongReject (SR)	Evaluation Score (avg@4)100	18

Showing 25 of 64 rows