Share your thoughts, 1 month free Claude Pro on usSee more

General Language Understanding

Benchmarks

Dataset Name	SOTA Method	Metric
tinyBenchmark		Accuracy (ARC)77.51	81	2mo ago
GLUE		Accuracy92.5	75	22d ago
GLUE v1 (test dev)	BOMF (Ours)	MNLI87.86	40	3mo ago
MMLU		MMLU Score73.59	39	1mo ago
Standard Downstream Tasks Suite (SciQ, PIQA, WinoGrande, ARC-E, ARC-C, HellaSwag, LogiQA, BoolQ, LAMBADA, MMLU)	ConceptLM	Average Accuracy48.3	32	3mo ago
MMLU	Qwen3-4B	MMLU Accuracy72.45	29	7d ago
Average	EMoE	Average Accuracy72.93	26	21d ago
General LLM Benchmarks (ARC-C, CSQA, HellaSwag, LAMBADA, MMLU, OpenBookQA, PIQA, Winogrande) (test)		ARC-C Accuracy59.5	22	3mo ago
General Ability Suite (MMLU, PIQA, ARC-E, ARC-C, BoolQ, WinoGrande, HellaSwag, TruthfulQA)	LRC	MMLU Accuracy65	20	5d ago
12-task evaluation suite (test)	Efficient-DLM 8B	Average Score71.62	20	3mo ago
C-Eval (val)	Qwen-1.5 14B (Teacher)	Accuracy78.68	18	3mo ago
Held-out capability suite (test)		AIME-2024 Accuracy62.9	16	15d ago
Overall LLM Evaluation Suite PiQA, ARC, HellaSwag, WinoGrande, MMLU v1	LLaMA-3-8B-Lizard	Overall Accuracy74.6	16	1mo ago
General Ability Suite (C-QA, T-QA, LAM, MMLU, L-Code)		Average Score48.1	16	3mo ago
10 Benchmarks Average (test)	Base	Accuracy (Average)67.4	15	27d ago
8 Sub-Tasks (test)	LoRA	Performance on 8 Sub-Tasks62.3	14	2mo ago
NLP Evaluation Suite (SciQ, PIQA, WG, ARC, HellaSwag, LogiQA, BoolQ, LAMBADA)	MOUE L48	SciQ Accuracy58.3	14	2mo ago
CMMLU	NBDiff-7B-BASE	Overall Accuracy77.3	14	3mo ago
All tasks (25 tasks) (val)	polish-roberta-8k	Overall Accuracy85.93	13	2mo ago
General Language Tasks Suite (WikiText-2, MMLU, PIQA, HellaSwag, WinoGrande, ARC-Challenge) standard (various)		PPL4.88	13	3mo ago
MMLU		Accuracy71.6	12	1mo ago
Open LLM Leaderboard HuggingFace 2023a (test)	LLaMA-2-13B (Zero-shot)	ARC-c Accuracy (25-shot)59.4	12	2mo ago
Winogrande, HellaSwag, ARC, MMLU Consolidated	Teacher (DeepSeek-V2-Lite)	Average Accuracy71.09	11	6d ago
BIG-bench Mimicked		Sports Score99.7	11	3mo ago
BIG-bench Original		Sports Score99.4	11	3mo ago

Showing 25 of 58 rows