General Language Capabilities

Benchmarks

Dataset Name	SOTA Method	Metric	Trend
Open LLM Leaderboard lm-eval-harness (test)	TDPO	HellaSwag Accuracy83.29		14	2mo ago
MMLU, GSM8K, GPQA, HumanEval, TruthfulQA, IFEval Aggregate	GRPO	Average Score71.2		10	4mo ago

Showing 2 of 2 rows