MMLU, ARC-c, HellaSwag, BOOLQ, PIQA, WinoGrande

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Natural Language Understanding and Reasoning	MMLU, ARC-c, HellaSwag, BOOLQ, PIQA, WinoGrande zero-shot	Average Score (Zero-shot)69.72		20

Showing 1 of 1 rows