Commonsense and Reading Comprehension Suite

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Reasoning	7-benchmark commonsense and reading-comprehension suite (ARC-Easy, ARC-Challenge, HellaSwag, WinoGrande, PIQA, BoolQ, and OpenBookQA) LM Evaluation Harness default (test)	Accuracy68.77		108
Zero-shot Question Answering and Language Modeling	Commonsense and Reading Comprehension Suite (ARC-c, ARC-e, BoolQ, HellaSwag, LAMBADA, PIQA, RACE) zero-shot	ARC-c Accuracy26.37		8

Showing 2 of 2 rows