Holistic Evaluation

Benchmarks

Dataset Name	SOTA Method	Metric	Trend
CodaSet ID Average (test)	Qwen3-235B-A22B	Accuracy90.6		16	2mo ago
Combined Suite General Reasoning Perception Text	Qwen3-32B	Text Average76.3		13	2mo ago

Showing 2 of 2 rows