Standard LLM Benchmarks

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Reasoning and Question Answering	Standard LLM Benchmarks (BoolQ, RTE, HellaSWAG, ARC, OpenBookQA, PiQA)	Avg Accuracy67.24		15

Showing 1 of 1 rows