Multimodal Safety Evaluation on GOAT (test)

56.9Misogyny Accuracy

OSGA

Updated 4mo ago

Evaluation Results

Method	Links
OSGA 2026.01		56.9	36.71	47.51	57.61	50.38	38.3	68.02	47.12	55.7	44.94
Baseline 2026.01		49.4	32.76	41.59	30.48	50.11	33.58	44	34.52	46.28	32.84