Natural Language Inference on HANS (test)

78.65Accuracy

Roberta-large w/ Z-Aug

Updated 4mo ago

Evaluation Results

Method	Links
Roberta-large w/ Z-Aug 2022.03		78.65
Roberta-large w/ DMNLI 2022.03		75.74
MT-NLG 2022.01		73.16
E2E Self-debias 2022.03		71.2
SCILL-REx 2022.06		71.2
SCILL-PGI 2022.06		70.99
SCILL-cMMD 2022.06		70.92
SCILL-cMMD 2022.06		70.77
Roberta-base w/ TAILOR 2022.03		70.5
SCILL-IRM 2022.06		69.82
SCILL-REx 2022.06		69.75
SCILL-REx 2022.06		69.73
DFL 2022.03		69.26
PoE 2022.06		69.2
SCILL-cMMD 2022.06		69.15
SCILL-IRM 2022.06		69.11
Regularized-conf 2022.03		69.1
ConfReg 2022.06		69.1
BERT-base + PoE w/ Z-Aug 2022.03		68.75
SCILL-IRM 2022.06		68.72
SCILL-PGI 2022.06		68.57
SCILL-PGI 2022.06		68.57
PoE+CE 2022.03		67.9
BERT-base w/ Seq-Z 2022.03		67.69
Roberta-base w/ Seq-Z 2022.03		66.87
EIIL-REx 2022.06		66.87
EIIL-REx 2022.06		66.43
EIIL-IRM 2022.06		66.42
PoE 2022.03		66.31
Learned-Mixin+H 2022.03		66.15
EIIL-PGI 2022.06		66.02
EIIL-PGI 2022.06		65.57
EIIL-PGI 2022.06		65.57
EIIL-IRM 2022.06		65.35
EIIL-IRM 2022.06		65.35
Roberta-base w/ DSNLI 2022.03		65.32
EIIL-REx 2022.06		65.16
BERT-base w/ Par-Z 2022.03		65.11
ERM 2022.06		64.88
ERM 2022.06		64.88
EIIL-cMMD 2022.06		64.25
Learned-Mixin 2022.03		64
BERT-base + PoE w/ DMNLI (baseline) 2022.03		63.4
EIIL-cMMD 2022.06		63.22
EIIL-cMMD 2022.06		62.72
BERT-base w/ Z-Aug 2022.03		62.57
MT-NLG 2022.01		60.01
Roberta-large w/ AFLite 2022.03		59.6
BERT-base Attention 2022.03		58.42
GPT-2 2022.01		54.79
BERT-base w/ DMNLI baseline 2022.03		54.36
MT-NLG 2022.01		51.61
GPT-2 2022.01		49.92
GPT-2 2022.01		49.79