Zero-shot language evaluation

Benchmarks

Dataset Name	SOTA Method	Metric
Zero-shot NLP Evaluation Suite (WikiText2, BoolQ, PIQA, HellaSwag, WinoGrande, ARC, OBQA, MTQA) (test)	SimDiff (MSSD)	WikiText2 Perplexity7.43	27	3mo ago
Gauntlet 20 benchmarks (test)	Prior-based	Average Normalized Accuracy9.2	10	4mo ago
MMLU, ARC-C, PIQA, WinoG, GSM8K, HellaSwag, GPQA, RACE zero-shot		Average Score60.94	9	5mo ago
7-task evaluation suite (BoolQ, PIQA, HellaSwag, WinoGrande, ARC-E, ARC-C, OBQA) (test)	Mamba-2 FP16	BoolQ Accuracy62.9	4	1mo ago
DCLM Pro	PathMoE	WinoGrande57.93	2	4mo ago

Showing 5 of 5 rows