Standard Harmful Content Datasets

Benchmarks

Task Name	Dataset Name	SOTA Result
Harmful Content Detection	Standard Harmful Content Datasets Evasion Attack	Phishing96	3
Harmful Content Detection	Standard Harmful Content Datasets (Goal Hijacking Attack)	Phishing96	2
Harmful Content Detection	Standard Harmful Content Datasets Misdirection Attack	Phishing97	2

Showing 3 of 3 rows