ToxicChat

Benchmarks

Task Name	Dataset Name	SOTA Result
Performance Estimation	ToxicChat	MAE0	198
Toxicity Detection	ToxicChat	F1 Score1	45
Safety Classification	ToxicChat (test)	Accuracy97.3	43
Input Moderation	ToxicChat (test)	F1 Score82.8	42
Safety Classification	ToxicChat	F1 Score0.81	32
Unsafe Prompt Detection	ToxicChat (test)	Precision0.815	16
Safety Refusal	ToxicChat	Refusal Rate95	15
Prompt Classification	ToxicChat Text Prompt	F1 Score96.27	14
Binary safety classification	ToxicChat jailbreaking	Macro F170.54	11
Safety Classification	ToxicChat (out-of-distribution)	F1 Score72.88	11
Prompt-only Safety Routing	ToxicChat	Routing F156.82	10
Content Safety Classification	ToxicChat	Precision75.46	6
Safety Detection	ToxicChat (held-out)	AUROC87.7	5
OOD Detection	ToxicChat (test)	Length-Matched AUROC60.2	5
Harmful content detection	ToxicChat	Safe Rate92.6	4
Toxicity Detection	ToxicChat (test)	Accuracy0.9772	4
Unsafe prompt detection	ToxicChat	AUPRC75.5	4
Safety Detection	ToxicChat	F1 Score65	3
Calibration Analysis	ToxicChat	AUROC0.67	2
Safety Classification	ToxicChat (in-distribution)	F1 Score (%)82.2	2

Showing 20 of 20 rows