Downstream Reasoning Benchmarks

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Reasoning	Downstream Reasoning Benchmarks (MATH, GSM8K, AQUA, AIME, AMC, MMLU, GPQA)	Average Accuracy82.15		18

Showing 1 of 1 rows