ARC, WinoGrande, BoolQ, HellaSwag, OpenBookQA, PIQA, MMLU

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Zero-shot Downstream Task Evaluation	ARC-c, ARC-e, WinoGrande, BoolQ, HellaSwag, OpenBookQA, PIQA, MMLU standard (test val)	Average Accuracy0.7361		88

Showing 1 of 1 rows