SOTA Natural Language Reasoning benchmarks and papers with code

Benchmarks

Dataset Name	SOTA Method	Metric
DROP	InfiGFusion	Accuracy89.62	43	2mo ago
GSM8K, MATH, SVAMP, ASDiv, MAWPS, CARP		Average Score82.5	29	4mo ago
HELM		Synth. Reason. (AS)54	16	4mo ago
BoolQ, ARC-e, ARC-c, WinoGrande (WinoG), HellaSwag (HelloS)	MoEITS	BoolQ Accuracy75.2	4	3mo ago
Big-GSM	TCR	Accuracy54.4	4	4mo ago

Showing 5 of 5 rows