SOTA Multimodal Safety Evaluation benchmarks and papers with code

Benchmarks

Dataset Name	SOTA Method	Metric
MM-SafetyBench	Qwen2.5-VL-3B + SFT+DPO+GRPO	Safety Score2.73	34	1mo ago
SPA-VL	SaFeR-ToolKit (+ SFT+DPO+GRPO) [3B]	Safety Score91.89	26	4mo ago
ToolkitBench	Qwen2.5-VL-7B + SFT+DPO+GRPO	Safety Score2.49	22	4mo ago
MSSBench	Qwen2.5-VL-3B + VLGuard	Safety Score2.55	22	4mo ago
BeaverTails-V	Qwen2.5-VL-7B + TIS	Safety Score2.9	22	4mo ago
FigStep	CrossGuard	ASR (%)0.21	9	2mo ago
SIUO	CrossGuard	ASR5.39	9	2mo ago
MM-SafetyBench SD + TYPO + SD_TYPO (test)	DefenSee	ASR Score0.08	8	4mo ago
VLGuard (test)	LLaVAShield-7B	Accuracy86.78	6	4mo ago
MM-SafetyBench	LLaVAShield-7B	Text-only Recall95.3	6	4mo ago
multimodal safety dataset		ASR0.13	6	4mo ago
Image input safety evaluation set	gpt-5-thinking-nano	Hate Safety Acc98.6	4	4mo ago
ChatGPT image input safety evaluations		Hate Safety98.9	4	4mo ago
MM-SafeBench		Forbidden Statements ASR1.04	4	4mo ago
SafeBench		FS ASR3.26	4	4mo ago
GOAT (test)	OSGA	Misogyny Accuracy56.9	2	4mo ago

Showing 16 of 16 rows