NLP Evaluation Suite

Benchmarks

Task Name	Dataset Name	SOTA Result
Zero-shot Language Evaluation	Zero-shot NLP Evaluation Suite (WikiText2, BoolQ, PIQA, HellaSwag, WinoGrande, ARC, OBQA, MTQA) (test)	WikiText2 Perplexity7.43	27
General Language Understanding	NLP Evaluation Suite (SciQ, PIQA, WG, ARC, HellaSwag, LogiQA, BoolQ, LAMBADA)	SciQ Accuracy58.3	14
General Language Understanding and Generation	NLP Evaluation Suite SST-2, RTE, CB, BoolQ, WSC, MultiRC, COPA, SQuAD, DROP (test)	SST-2 Accuracy95.41	6
Language Model Evaluation	NLP Evaluation Suite (WG, PIQA, BoolQ, ARC-C, ARC-E, OBQA, HS, SciQ, LM, RTE)	WG60.14	6

Showing 4 of 4 rows