Reasoning and Question Answering

Benchmarks

Dataset Name	SOTA Method	Metric	Trend
Standard LLM Benchmarks (BoolQ, RTE, HellaSWAG, ARC, OpenBookQA, PiQA)		Avg Accuracy67.24		15	5mo ago
HLE (reference)	Theoria	Problems Evaluated185		1	23d ago

Showing 2 of 2 rows