Llama Evaluation Suite

Benchmarks

Task Name	Dataset Name	SOTA Result
Large Language Model Reasoning and Understanding	Llama-3.2-3B-Instruct Evaluation Suite (test val)	MMLU Pro37.3	25
Zero-shot Reasoning and Language Modeling	LLaMA-3-8B Evaluation Suite ARC-C, HellaSwag, WinoGrande, PIQA, ARC-E, BoolQ, GSM8K, WikiText-2 (test)	ARC-C Accuracy53.4	13
Language Understanding	Llama-3.1-70B Evaluation Suite MMLU, WinoGrande, HellaSwag, ARC-Easy, ARC-Challenge	MMLU78.58	13
Language Understanding and Code Generation	Llama 1B Evaluation Suite (ARC, HellaSwag, MMLU, TruthfulQA, WinoGrande, Humaneval) 3.2	ARC39.33	6

Showing 4 of 4 rows