Natural Language Understanding and Reasoning

Benchmarks

Dataset Name	SOTA Method	Metric
Standard Suite Zero-shot (PiQA, ARC-E, ARC-C, HellaSwag, WinoGrande, BoolQ)		PiQA Accuracy (Zero-shot)80.7	39	2mo ago
LLM Downstream Evaluation Suite (ARC-c, BoolQ, Winogrande, GSM8k, MMLU) zero-shot		ARC-c Accuracy (zero-shot)65.36	20	2mo ago
MMLU, ARC-c, HellaSwag, BOOLQ, PIQA, WinoGrande zero-shot		Average Score (Zero-shot)69.72	20	4mo ago
Standard Downstream Benchmarks Two-Shot (val)	AdaGC	ARC-E Accuracy (Normalized)56.86	11	4mo ago
General Benchmarks Italian	Qwen2.5	ARC-C-it37.47	6	4mo ago

Showing 5 of 5 rows