OpenLLM Leaderboard

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Downstream Task Evaluation	OpenLLM Leaderboard v1 (test)	MMLU (5-shot)63.95		14
General Language Understanding and Reasoning	OpenLLM Leaderboard BBH, GPQA, IFEVAL, MMLU, MUSR (test)	BBH72.7		4

Showing 2 of 2 rows