Multi-task Language Understanding

Benchmarks

Dataset Name	SOTA Method	Metric
MMLU	M2CL	Accuracy99.7	881	3mo ago
MMLU		MMLU Accuracy98.5	456	1mo ago
MMLU		Accuracy94.7	353	3mo ago
MMLU	Qwen3.5-35B-A3B	Accuracy83.29	143	1mo ago
MMLU	GPT-4	MMLU Score86.4	116	1mo ago
MMLU (test)		Normalized Accuracy90.46	107	25d ago
MMLU	QWEN-3-30B MOE	MMLU Score80.2	86	1mo ago
MMLU Pro		Accuracy96.8	66	1mo ago
MMLU-Pro	SMCS	Accuracy82.05	64	2mo ago
MMLU-Pro		Pass@192.85	64	3mo ago
MMLU-Redux	HieraMAS	Accuracy95.2	48	2mo ago
MMLU	HARP-C	Top-1 Accuracy74.7	46	16d ago
MMLU-PRO	gemma3-27b-slerp	Accuracy (%)51.91	42	22d ago
MMLU Biz	SharedRequest (Original)	F1 Score90	41	1mo ago
MMLU Pro	Qwen3-Next-80B-A3B-Thinking	MMLU Pro Engineering Acc76.88	41	2mo ago
MMLUpro (test)	SIGMA	Accuracy95.71	36	1mo ago
MMLU	MONA	MMLU Score63.73	33	1mo ago
CMMLU	Qwen3 Model	Accuracy89.44	33	1mo ago
MMLU Pro (test)	ExpeL + Janus	Physics Score92.8	32	24d ago
MMLU		Accuracy (5-shot)78.74	31	4mo ago
CEval	Qwen3 Model	Accuracy91.21	31	1mo ago
MMLU	CoT	Average Inference Time (s)2.07	30	4mo ago
MMLU		Accuracy73.1	27	26d ago
MMLU-M	ZipCal	Accuracy28.79	26	4mo ago
MMLU-Pro	VecCISC + KMeans	Best Accuracy71.4	25	2mo ago

Showing 25 of 124 rows