nine-benchmark suite

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Zero-shot Language Understanding and Reasoning	nine-benchmark suite (MMLU, ARC, CSQA, HellaSwag, OpenBookQA, PIQA, SocialIQA, WinoGrande) (test val)	MMLU Accuracy31.7		6

Showing 1 of 1 rows