GSM8K, CommonSense, BoolQ, ARC, and HellaSwag

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Reasoning and Math	GSM8K, CommonSense, BoolQ, ARC Challenge, and HellaSwag	Average Accuracy87.8		9

Showing 1 of 1 rows