GSM8K, TruthfulQA, CommonsenseQA, MMLU, ARC, and TriviaQA

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Large Language Model Evaluation	GSM8K, TruthfulQA, CommonsenseQA, MMLU, ARC, and TriviaQA (various)	Accuracy88		9

Showing 1 of 1 rows