Safety Assessment

Benchmarks

Dataset Name	SOTA Method	Metric
Safety Avg.	JailJudge	MAE2.6912	14	3mo ago
StrongReject	Identity-Robust Generation	Personalization Bias (PB)0.179	9	4mo ago
Safety Prompts (randomly selected 200 samples per field)	llama2 -> CP -> FT + 0.5 chat vector	Insensitivity Score1.5	9	4mo ago
Qualitative Assessment Dataset	Mi:dm 2.0-Base	Not Unsafe Rate (Content Safety)97.7	4	4mo ago

Showing 4 of 4 rows