Multi-label Toxic Content Classification on Jigsaw-ML (Adversarial Robustness)

71.7Attack Success Rate

AT1-unk

Updated 5mo ago

Evaluation Results

Method	Links
AT1-unk 2024.04		71.7	91.08	11.84
No AT 2024.04		98.75	49.38	6.96