BoolQ, ARC, WinoGrande, HellaSwag

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Zero-shot Language Understanding	BoolQ, ARC-e, ARC-c, WinoGrande, HellaSwag	ARC-e Accuracy83.08		8
Natural Language Reasoning	BoolQ, ARC-e, ARC-c, WinoGrande (WinoG), HellaSwag (HelloS)	BoolQ Accuracy75.2		4

Showing 2 of 2 rows