ARC, HellaSwag, LAMBADA, PIQA

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Zero-shot Language Understanding	ARC-Easy, ARC-Challenge, HellaSwag, LAMBADA, PIQA lm-eval 0.4.11 (test)	Average Accuracy81.5		42

Showing 1 of 1 rows