Zero-shot Downstream Task Evaluation

Benchmarks

Dataset Name	SOTA Method	Metric
ARC-c, ARC-e, WinoGrande, BoolQ, HellaSwag, OpenBookQA, PIQA, MMLU standard (test val)		Average Accuracy0.7361	88	3mo ago
LM-EVAL (Average of HellaSwag, PIQA, ARC-Easy, ARC-Challenge, and WinoGrande) zero-shot latest		Average Accuracy76	30	3mo ago
ARC-e, BoolQ, HellaSwag, LAMBADA, PIQA, RACE, SocialIQA, SciQ, SWAG	JREG	ARC-e Accuracy77.9	12	3mo ago
Downstream Tasks zero-shot (Arc-c, Arc-e, BoolQ, COPA, MMLU, OBQA, PIQA, RTE, Winogrande)	RS	Arc-c49.32	6	3mo ago
Downstream Evaluation Suite (Arc-e, PIQA, Hellaswag, OpenBookQA, Winogrande, MMLU, BoolQ)	BHyT	Arc-e53.83	4	3mo ago

Showing 5 of 5 rows