Share your thoughts, 1 month free Claude Pro on usSee more

Over-Prudence Evaluation on VLGuard

4.48RR (Before)

Mixed-SFT

Updated 1mo ago

Evaluation Results

Method	Links
Mixed-SFT 2025.03		4.48	91.76
Posthoc-SFT 2025.03		2.69	90.83
NPO-Unlearning 2025.03		2.51	11.69
RMU-Unlearning 2025.03		1.25	7.56
LLaVA-1.5-7B 2025.03		0.36	0.36
Unsafe-Filter 2025.03		0.36	0