Aggregated benchmark suite

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
General Language Model Evaluation	Aggregated 11-benchmark suite Math, Code, IF	Average Accuracy74.9		21

Showing 1 of 1 rows