LLM Benchmark Suite

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Language Understanding	LLM Benchmark Suite (MMLU, ARC-C, PIQA, WinoG, GSM8K, HellaSwag, GPQA, RACE) (test)	Overall Accuracy57.93		13
Language Modeling	10 LLM benchmark suite macro-average	PASS-AT-1 Accuracy71.8		9

Showing 2 of 2 rows