SFT Evaluation Suite

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Large Language Model Evaluation	SFT Evaluation Suite (AlpacaEval, TruthfulQA, MMLU) (test)	AlpacaEval Score78.1		7

Showing 1 of 1 rows