Language Modeling Evaluation

Benchmarks

Dataset Name	SOTA Method	Metric
General Language Evaluation Suite AE, AC, SciQ, MMLU, MMLU-P, HS, OBQA, PIQA, RACE, WG, CSQA, AGI (test)	ROOT	AE Score69.95	27	2mo ago
MMLU, GSM8k, HellaSwag, WinoGrande		MMLU Accuracy72.98	17	4mo ago
LM Evaluation Harness	SEFT	Accuracy60.35	16	3mo ago
Open LLM Leaderboard		ARC70.22	14	4mo ago
TinyStories	go-mHC	Grammar6.63	5	3mo ago
Eight benchmark LLM tasks	Heterogeneous Digital-AIMC framework	Throughput (Tokens/s)49,781.23	5	4mo ago
Bolmo 1B evaluation suite	BLT 1B	Overall Average Score58.5	5	4mo ago
ARC, HellaSwag, MMLU, TruthfulQA, WinoGrande	BOFT	ARC Accuracy34.64	4	4mo ago

Showing 8 of 8 rows