BoolQ, PIQA, HellaSwag, WinoGrande, ARC, OBQA, MTQA

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Zero-shot Language Reasoning	BoolQ, PIQA, HellaSwag, WinoGrande, ARC-e, ARC-c, OBQA, MTQA zero-shot	BoolQ Accuracy82.11		21

Showing 1 of 1 rows