Broad evaluation suite

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Language Modeling	Broad evaluation suite unseen S1 (dev)	Average Accuracy74.2		8

Showing 1 of 1 rows