Reasoning Tasks Suite

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Reasoning	Reasoning Tasks Suite GSM8K, MATH500, HumanEval, MBPP	Average Accuracy60.3		20

Showing 1 of 1 rows