Overall LLM Evaluation Suite

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
General Language Understanding	Overall LLM Evaluation Suite PiQA, ARC, HellaSwag, WinoGrande, MMLU v1	Overall Accuracy74.6		16

Showing 1 of 1 rows