Question Answering and Commonsense Reasoning

Benchmarks

Dataset Name	SOTA Method	Metric
Short-context benchmarks ARC-C, ARC-E, PIQA, Winogrande, HellaSwag		ARC-C Accuracy63.48	45	3mo ago
NLP Benchmark Suite Zero-shot (HellaSwag, RACE, PIQA, WinoGrande, ARC, OBQA) (test)	LLAMA-30B	HellaSwag Accuracy63.36	28	2mo ago
Zero-Shot Evaluation Suite (Arc-e, Arc-c, Boolq, Hellaswag, Openbookqa, Piqa, SciQ, Winogrande)	StableQAT	ARC-E65.74	18	4mo ago
LM Eval ARCC, ARCE, HellaSwag, PIQA 0.4.4 standard (test)		ARCC61.6	18	4mo ago
lm-eval-harness PIQA, COPA, OpenBookQA, Winogrande, SciQA, ARC-E, ARC-C		PIQA Accuracy78.8	10	4mo ago
LM Evaluation Harness ARC-C, ARC-E, BoolQ, HellaSwag, LAMBADA, PiQA, WinoGrande zero-shot SlimPajama data-restricted scenario		ARC-C25.76	6	1mo ago
Downstream Tasks (ARC-C, HellaSwag, PIQA, WinoGrande) zero-shot		ARC-C Accuracy55.8	3	2mo ago

Showing 7 of 7 rows