OLMES

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
General capability	OLMES benchmarks	Average Score51.4		9
Language Understanding and Reasoning	OLMES Standard	ARC-Easy Accuracy75.9		5

Showing 2 of 2 rows