MMLU, GSM8K, HumanEval, BBH

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
General Language Model Capability	MMLU, GSM8K, HumanEval, BBH Combined	Average Score68.42		8

Showing 1 of 1 rows