MMLU, GSM8K, GPQA, HumanEval, TruthfulQA, IFEval

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Large Language Model Evaluation	MMLU, GSM8K, GPQA, HUMANEVAL, TRUTHFULQA, IFEVAL	MMLU70.7		23
General Language Capabilities	MMLU, GSM8K, GPQA, HumanEval, TruthfulQA, IFEval Aggregate	Average Score71.2		10

Showing 2 of 2 rows