Utility Set

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
General Language Model Evaluation	Utility Set MMLU, BBH, TruthfulQA, TriviaQA, AlpacaEval	MMLU68.93		34

Showing 1 of 1 rows