SOTA Abductive Commonsense Reasoning on aNLI (test) and PapersWithCode

92.9Accuracy

Human Performance

Updated 4mo ago

Evaluation Results

Method	Links
Human Performance 2022.10		92.9
CompassMTL 2022.10		92.8
Previous SOTA 2022.10		92.2
Human 2026.03		91.4
DeBERTa-v3-L (Supervised) 2026.03		89
RoBERTa-L (Supervised) 2026.03		85.6
EventBERT 2022.03		85.51
EventBERT 2022.03		85.51
IMAGINE-DeBERTa-v3-L 2026.03		83.4
IMAGINE-DeBERTa-v3-L (Retrieval) 2026.03		83.3
ClarET 2022.03		82.77
ClarET 2022.03		82.77
RoBERTa-large 2022.03		82.35
RoBERTa 2022.03		82.35
IMAGINE-DeBERTa-v3-L 2026.03		82.2
CANDLE-DeBERTa-v3-L 2026.03		81.2
BART-large 2022.03		80.74
BART 2022.03		80.74
CAR-DeBERTa-v3-L 2026.03		79.6
UNICORN 2022.03		79.5
UNICORN 2022.03		79.5
T5-large 2022.03		77.8
CALM-large 2022.03		77.12
CALM 2022.03		77.12
DeBERTa-v3-L (MR) 2026.03		76
GPT-4 (gpt-4) 2026.03		75
IMAGINE-RoBERTa-L 2026.03		74.7
CANDLE-VERA-T5-xxl 2026.03		73.8
ChatGPT (gpt-3.5-turbo) 2026.03		73.2
VERA-T5-xxl 2026.03		73.2
CAR-RoBERTa-L 2026.03		72.7
Zero-shot Fusion 2026.03		72.5
Multi-hop Knowledge Injection 2026.03		72.5
VERA-T5-xxl 2026.03		71.2
RoBERTa-L (MR) 2026.03		70.8
BERT-large 2022.03		66.75
RoBERTa-L 2026.03		65.6
GLM-large 2022.03		65.27
KnowBERT 2022.03		63.18
ERNIE 2022.03		63.04
BERT-base 2022.03		61.88
GPT-3.5 (text-davinci-003) 2026.03		61.8
CAR-GPT-2-L 2026.03		61.7
IMAGINE-GPT-2-L 2026.03		61.5
T5-base 2022.03		61.1
DeBERTa-v3-L 2026.03		59.9
GPT-2-L (MR) 2026.03		59.2
GPT-2-L 2026.03		56.5
LLAMA2-13B 2026.03		55.9
LLaVA-1.5-7B 2026.03		55.2
InstructBLIP-Vicuna-7B 2026.03		54.8
Mistral-v0.1-7B 2026.03		51
Random 2022.03		50