ARC, HellaSwag, MMLU, TruthfulQA, WinoGrande

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Few-shot Language Evaluation	ARC, HellaSwag, MMLU, TruthfulQA, WinoGrande Few-shot Llama2-7B	ARC Accuracy56.06		6
Language Modeling Evaluation	ARC, HellaSwag, MMLU, TruthfulQA, WinoGrande	ARC Accuracy34.64		4

Showing 2 of 2 rows