Large Language Model Evaluation

Benchmarks

Dataset Name	SOTA Method	Metric
MMLU Pro, GSM8k, IFEval, HellaS, WinoG		MMLU Pro61.99	75	1mo ago
MMLU, GSM8k, HellaSwag, WinoGrande		Average Score78.9	58	4mo ago
10 tasks average		Avg Accuracy70.56	50	4mo ago
HuggingFace Open LLM Leaderboard	SynPO	GSM8K55.37	49	4mo ago
Open PL LLM Leaderboard instruction-tuned		Overall Average Score69.84	44	4mo ago
Open LLM Leaderboard		Average Score74.2	41	3mo ago
Qwen3-0.6B Average (test)	EDGERAZOR	Average Performance47.83	38	2mo ago
HuggingFace Open LLM Leaderboard lm-eval-harness default (various)		HellaSwag84.34	36	2mo ago
Open LLM Leaderboard v1 (test)		Average Score69.6	34	2mo ago
MMLU, GSM8K, GPQA, HUMANEVAL, TRUTHFULQA, IFEVAL	GRPO	MMLU70.7	23	4mo ago
ARC, TruthfulQA, Winogrande, GSM8K, HellaSwag, MMLU	DNPO	ARC Accuracy73.7	16	4mo ago
12-task evaluation suite composite (test)	FineWeb-Edu	Reading Comprehension Score49.6	14	4mo ago
Qwen-32B		MMLU80.81	13	4mo ago
MMLU, GSM8k, HellaSwag, WinoGrande (test)		MMLU Accuracy86.55	13	4mo ago
OpenCompass	Qwen3-30B-A3B	cMMLU84.88	11	4mo ago
Slovene-LLM-Eval		Average Rank3.05	10	4mo ago
GSM8K, TruthfulQA, CommonsenseQA, MMLU, ARC, and TriviaQA (various)	JoBS	Accuracy88	9	4mo ago
NorEval (test)	NorwAI-Mistral-7B	Overall Score0.455	8	4mo ago
SFT Evaluation Suite (AlpacaEval, TruthfulQA, MMLU) (test)	Warmup-Stable-Only (WSO)	AlpacaEval Score78.1	7	4mo ago
LLaMA 3B 3.2		PPL7.81	6	4mo ago
LLaMA 1B 3.2		Perplexity (PPL)9.75	6	4mo ago
LLaMA-3 8B		PPL6.13	6	4mo ago
LLaMA-2 13B		Perplexity4.88	6	4mo ago
LLaMA-2 7B		PPL5.47	6	4mo ago
MT-Bench benign prompts		Average Time Cost41.56	6	4mo ago

Showing 25 of 31 rows