All Evaluated Datasets

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
General Reasoning & QA	All Evaluated Datasets	Average Accuracy39.7		7

Showing 1 of 1 rows