General Language Capability

Benchmarks

Dataset Name	SOTA Method	Metric
MMLU, GSM8K, HEval, IFEval, MTBench		MMLU Accuracy76.4	16	24d ago
Aggregate K&R, IFEval-PT, HumanEval	Tucano2-qwen-3.7B-Instruct	Average Score53.64	14	4mo ago
Aggregate IFEval, IFBench, Arena-Hard-v2.0, Creative Writing v3, WritingBench	Hybrid Reward	Average Score71.9	11	1mo ago
DCLM CORE v2 (test)	WebOrganizer+	Commonsense Score61.9	7	1mo ago
General Capability Suite (MMLU, GSM8K, GPQA)	MUSE-D	MMLU Accuracy73.6	5	2mo ago
BIG-bench 57 Task	GAL 120B	Accuracy (Weighted)48.7	5	5mo ago

Showing 6 of 6 rows