ToxiGen

Benchmarks

Task Name	Dataset Name	SOTA Result
Toxicity Detection	ToxiGen	Score84.23	95
Safety Evaluation	ToxiGen	Safety100	77
Hate speech classification	ToxiGen (test)	AUC99	24
Toxicity Generation	ToxiGen	ToxiGen Score1,633	24
Toxicity Classification	Toxigen	Accuracy60.41	22
Harmlessness	Toxigen	Toxigen (%)100	17
Detoxification	ToxiGen (test)	MTV97.4	16
Influence Estimation	ToxiGen (test)	Spearman Correlation0.44	14
Machine Unlearning	ToxiGen (test)	Accuracy ($D_f$)86.9	13
Machine Unlearning	ToxiGen (train)	Accuracy ($D_f$)85.06	13
Text Classification	ToxiGen (test)	Accuracy85	12
Bias Detection	Toxigen (test)	Accuracy90.3	12
Safety Evaluation	ToxiGen Pretrained Evaluation	Toxicity Rate14.53	12
Content Safety	ToxiGen (test)	Macro F1-Score86	8
Toxicity Detection	TOXIGEN (val)	AUC96	8
Safety Over-triggering	ToxiGen	Over-trigger Rate: Jewish0.02	7
Implicit Hate Speech Detection	Toxigen	Macro-F193.41	5
Formal verification of safety classifiers	Toxigen	tau* Score0.9	3
Safety Content Detection	ToxiGen	Detection Rate72.3	1
Misuse Detection	ToxiGen Homophobia (external)	TPR98	1
Misuse Detection	ToxiGen Ethnoracial (external)	TPR91	1
Detoxification Dataset Quality Evaluation	ToxiGen 500 neutral-toxic pairs	Overall O.2.475	1

Showing 22 of 22 rows