HumanEval, MATH, MMLU

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Aggregate Language and Logic Tasks	HumanEval++, MATH, MMLU-Redux	Average Accuracy94.61		11

Showing 1 of 1 rows