Safety Alignment Evaluation

Benchmarks

Dataset Name	SOTA Method	Metric
Llama-Guard	IPO	Harmfulness (%)82.14	36	4mo ago
PKU-SafeRLHF 30K (test)	wDPO	Win Rate (WR)90.23	32	4mo ago
HEx-PHI		Harmful Response Rate0.7	18	1mo ago
SorryBench	Staged-Competence	Harmful Response Rate (%)4.2	18	1mo ago
Refusal Evaluation Dataset		Refusal Rate99	16	4mo ago
VLSBench	GRPO	Safety Score100	14	1mo ago
MSS-Bench	Safe-RLHF-V	Safety Score93.33	14	1mo ago
SIUO	GRPO	Safety Score85.03	14	1mo ago
WildJailbreak (WildJB)	Stair-DPO	Safety Rate98.6	14	1mo ago
Strata	MESA	Safety Rate99	14	1mo ago
StrongReject SR-PAPL	MESA	Safety Rate100	14	1mo ago
StrongReject SR-PAPA	MESA	Safety Rate100	14	1mo ago
StrongReject SR-PAP_M	MESA	Safety Rate100	14	1mo ago
StrongReject SR-Pair	Stair-DPO	Safety Rate98.72	14	1mo ago
StrongReject SR-base		Safety Rate100	14	1mo ago
OOD Safety Suite Average of SorryBench, AdvBench, and HEx-PHI	Sqrt-Competence	Average Absolute Improvement0.5	12	1mo ago
RTA		Utility53	9	2mo ago
LATharm	OpenAI Moderation	Utility54	9	2mo ago
HarmBench (test)	BEA	Harm Score (HS)14	7	1mo ago
BeaveTails (test)		HS Score37.2	7	1mo ago
AdvBench (test)	AsFT	Harm Score (HS)1.6	7	1mo ago
Harmful (test)	AsFT	Harmful Score (HS)4	7	1mo ago
Safety Evaluation Dataset	DCR	Response Safe Rate (Llama Guard Model)81	5	4mo ago
SD Safety Evaluation Suite v2.1	SAGE	MMA1.3	3	23d ago
Implicit Domain Risk Management Domain	Triplet	JSR39.1	3	1mo ago

Showing 25 of 27 rows