LM Eval

Benchmarks

Task Name	Dataset Name	SOTA Result
Zero-shot downstream task evaluation	LM-EVAL (Average of HellaSwag, PIQA, ARC-Easy, ARC-Challenge, and WinoGrande) zero-shot latest	Average Accuracy76	30
Question Answering and Commonsense Reasoning	LM Eval ARCC, ARCE, HellaSwag, PIQA 0.4.4 standard (test)	ARCC61.6	18
Commonsense Reasoning and Knowledge	lm-eval ARC-C, BoolQ, Lambada, PIQA, Winogrande	ARC-C Accuracy53.58	8

Showing 3 of 3 rows