MMLU & GPQA

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
General Reasoning	MMLU & GPQA	Average Score62.62		13
Out-of-Distribution Generalization	MMLU-Redux and GPQA-Diamond (out-of-distribution)	Average Accuracy76.7		4

Showing 2 of 2 rows