Reasoning Evaluation Suite

Benchmarks

Task Name	Dataset Name	SOTA Result
Reasoning and Code Generation	Reasoning Evaluation Suite (GSM8K, MATH500, AIME24, HumanEval) (test)	GSM8K Accuracy94.7	36
Reasoning	Reasoning Evaluation Suite Math, Symbolic, and Commonsense (test)	Math Accuracy80.8	33
Reasoning	Reasoning Evaluation Suite AIME 2024, GSM8k, MATH 500, GPQA	AIME 2024 Score60	32
Reasoning	Reasoning Evaluation Suite (MATH, GSM8K, AQUA, GSM-H, MMLU, MMLU-P, AIME) (test)	MATH Score52.4	8

Showing 4 of 4 rows