SOTA General Language Evaluation benchmarks and papers with code

Benchmarks

Dataset Name	SOTA Method	Metric
14-Benchmark Evaluation Suite	Qwen-2.5-7B-TuluSFT	Average Score62.05	72	4mo ago
Aggregated MMLU, BoolQ, OpenBookQA, RTE	Mixtral-8x22B	Average Accuracy70.4	42	3mo ago
5 Datasets Zero-shot	QuEPT	Average Accuracy72.87	33	4mo ago
English lm-evaluation-harness	OjaKV	ARC Easy Acc (Norm)0.819	16	3mo ago
Aggregated Benchmarks	Qwen3-14B + NGM	Average Score0.7449	10	2mo ago
Open LLM Leaderboard 1	UM-190k	Overall Score66.12	9	4mo ago
12 general benchmarks Avg		General Average Score68.24	3	3mo ago
OLMo-2 Held-out Evals	OLMo-2-0425-1B	AGIEval Score24.4	2	4mo ago

Showing 8 of 8 rows