SOTA LLM Evaluation benchmarks and papers with code

Benchmarks

Dataset Name	SOTA Method	Metric
Qwen3-1.7B Evaluation Suite (avg)		Average Performance58.64	38	2mo ago
AlpacaEval	GLM-4-Voice	AlpacaE51.06	16	4mo ago
AlpacaEval 2.0	SpecEM	LC Win Rate51.32	16	18d ago
JudgeBench (test)	Skywork-Reward-V2-Llama-3.1-8B-40M	Knowledge79.9	16	4mo ago
Curated Population (MATH-500, MMLU-Redux, SimpleQA)	gemini-2.5-pro	Accuracy82.57	15	4mo ago
HuggingFace Open LLM Leaderboard Old (test)		GSM8K Score92.08	14	2mo ago
Arena-Hard v2	Qwen3-8B + CE-RM-4B	Score18.2	14	4mo ago
LLM Evaluation Suite (MMLU, IFEval, GSM8K, MATH, HumanEval, MBPP, Hellaswag, GPQA)	Alpaca-GPT4	MMLU51.94	13	23d ago
PandaLM	MILE-RefHumEval	Accuracy78.98	12	4mo ago
HealthBench (test)		HealthBench Score (%)62.6	11	4mo ago
Shared (evaluation)	GrowLoop	Tie-aware Accuracy78	10	1mo ago
Arena-Hard v0.1	Qwen3-8B + CE-RM-4B	Arena-Hard Score78.3	9	4mo ago
Chinese FuseEval	SpecEM	Win Rate56.77	7	4mo ago
FuseEval English	SpecEM	Win Rate55.46	7	4mo ago
WildBench v2	SEE	Quality Score64.9	6	1mo ago
Arena-Hard v2.0	SEE	Quality65.8	6	1mo ago
AlpacaEval 2.0	SEE	Quality Score84.3	6	1mo ago

Showing 17 of 17 rows