Safety Evaluation

Benchmarks

Dataset Name	SOTA Method	Metric
HEx-PHI	ID-LoRA	HEx-PHI Score97.2	162	4mo ago
HarmBench	SFT	ASR0	153	1mo ago
HexPhi		Harmfulness2	140	3mo ago
Harmbench	NPO	Harmbench Score0.06	127	1mo ago
Advbench	AOA	Safety Score100	117	1mo ago
BeaverTails (test)	SafeInstruct	Harmful Score7.9	110	2mo ago
HEx-PHI	DR-SFT	Attack Success Rate (ASR)1.8	107	25d ago
MM-SafetyBench	RAI	Average ASR0	98	1mo ago
DoNotAnswer Framed	TFS-IP-CoT	HRR0	96	4mo ago
Sorry-Bench	IDGAF	Safety Score99.09	90	4mo ago
WildJailbreak	ST-D	ASR0.0145	90	1mo ago
DirectHarm 4	GradSafe	Attack Success Rate9	87	1mo ago
XSTest Unsafe		False Refusal Rate (FR)0	84	29d ago
DirectHarm		Harmfulness Score5	84	3mo ago
Harmfulness Evaluation Sequences	llama2-13b-chat	Harmfulness Score0.79	84	4mo ago
XSTest Safe	ReasoningGuard	FC4	78	2mo ago
StrongReject	STAR-1	Attack Success Rate0	77	2mo ago
ToxiGen	VCL	Safety100	77	1mo ago
MultiJail	Qwen3-4B	Safe Response Rate99	66	4mo ago
LLaMA-2-7B-CHAT Safety (test)	TRAP	Safety Score0.55	60	4mo ago
MM-Safety	MoRAS	ASR0.4	57	3mo ago
Safety Suite AdvBench, PKU-SafeRLHF, HarmBench, JailbreakBench, SORRY-Bench, HarmfulQA, ALERT	DPO-Mix	AdvBench Score8.59	56	1mo ago
JailbreakBench (JBB) (test)	MLP	ASR (Llama-Guard-3-8B)1.12	56	2mo ago
Refusal Signal Score	MLP	ASR7.5	56	2mo ago
SecureBreak	MLP	ASR4.44	56	2mo ago

Showing 25 of 424 rows

...