Sorrybench

Benchmarks

Task Name	Dataset Name	SOTA Result
Jailbreak Attack	SorryBench	ASR (SorryBench)8.9	62
Safety Evaluation	SorryBench	Reasoning Success Rate (FFR)54.5	32
Safety Alignment Evaluation	SorryBench	Harmful Response Rate (%)4.2	18
Jailbreak Attack Defense	SorryBench	FFR (Reasoning)56.8	17
Text Query Safety	SorryBench	F1 Score89.43	14
Jailbreaking	SorryBench	LG4 ASR43.6	8
Harmful score evaluation	Sorrybench	Harmful Score12.95	8
Safety Evaluation	SorryBench	ASR8.22	6
Safety Detection	SorryBench wrapped with HarmBench templates (held-out)	Detection Rate86.9	3
Safety Detection	SorryBench clean condition (held-out)	Detection Rate95	3

Showing 10 of 10 rows