General Language Understanding and Reasoning

Benchmarks

Dataset Name	SOTA Method	Metric
General Benchmarks MMLU, HellaSwag, OBQA, WinoGrande, ARC-C, PiQA, SciQ, LogiQA	RegMix	MMLU Accuracy35.68	70	1mo ago
Open LLM Leaderboard Population (Top-50)		Accuracy60.08	50	2mo ago
Huggingface Open LLM Leaderboard	SimPO	HellaSwag Accuracy85.32	30	8d ago
TRACE	MagMax	C-STANCE Accuracy59	29	3mo ago
Open LLM Leaderboard Lighteval (test)		Mean Accuracy91.07	17	3mo ago
General domain benchmarks (test)	AM-Thinking (math)	DROP Score93.3	16	3mo ago
Leaderboard Benchmarks (IFEval, BBH, MATH, GPQA, MUSR, MMLU-PRO)	RMiPO	IFEval Score69.07	14	1mo ago
MMLU-Redux	Qwen 3 14B	Accuracy83.7	14	3mo ago
LLM Evaluation Suite (ARC, CSQA, GSM8K, HS, MMLU, OBQA, PIQA, SIQA, TQA, WG)	Muon (OSP)	ARC45.9	14	3mo ago
Academic Benchmarks (test)	Camelidae-8x34B-pro	Average Score59.9	10	3mo ago
7-Task Evaluation Suite (HellaSwag, MathQA, MMLU, OpenBookQA, WinoGrande, GSM8K, HumanEval)	BITSMOE	Average Accuracy61.91	8	1d ago
General LLM Evaluation Suite ARC-C ARC-E BoolQ HellaSwag MMLU OBQA RTE WinoGrande		ARC-Challenge Accuracy62.5	5	1mo ago
OpenLLM Leaderboard BBH, GPQA, IFEVAL, MMLU, MUSR (test)		BBH72.7	4	3mo ago
MMLU, MMLU-Redux, MMLU-Pro, AGIEval, BBH, ARC-Easy, ARC-Challenge, BoolQ	-	-	0	1mo ago

Showing 14 of 14 rows