Reasoning

Benchmarks

Dataset Name	SOTA Method	Metric
BBH	GHG-TDA	Accuracy95.4	726	6d ago
ARC	Qwen-7B-Instruct	Accuracy94.5	245	4d ago
MMLU-Pro	Agent Q-Mix	Accuracy92.86	241	22h ago
ARC Easy	GPT-4	Accuracy96.63	233	7d ago
HellaSwag (HS)		HellaSwag Accuracy91.84	209	6d ago
GPQA Diamond		Accuracy91.9	185	15d ago
WinoGrande (WG)	InternLM2-20B	Accuracy85.2	168	12d ago
PIQA	LLaDA2.0-flash	Accuracy96.5	164	6d ago
ARC-c	EMoE	Accuracy90.85	112	1d ago
GSM8K	GPT-5.2	Accuracy1	111	18h ago
7-benchmark commonsense and reading-comprehension suite (ARC-Easy, ARC-Challenge, HellaSwag, WinoGrande, PIQA, BoolQ, and OpenBookQA) LM Evaluation Harness default (test)	LATMiX-LU	Accuracy68.77	108	3mo ago
ARC Challenge	Qwen3	Accuracy97.2	100	7d ago
MATH 500		Accuracy (%)100	94	22d ago
BBH (test)	Agent-GWO	Accuracy73.9	94	14d ago
OpenBookQA	BioBridge	Accuracy88.4	92	13d ago
GPQA		Accuracy59.4	88	22h ago
ARC Challenge		Accuracy96.7	81	16d ago
LiveBench Reasoning	DIP	Accuracy92	80	3mo ago
GSM PRO	ZERO-SHOT	Accuracy100	72	1mo ago
Reasoning Benchmarks BBH, MMLU, ARC-C, ThmQA (test)		BBH64.66	66	6d ago
AIME 24	Qwen3-Base SAT	Accuracy on AIME 2486.3	65	25d ago
HLE	DeepSeek-V3.2	Accuracy (HLE Reasoning)40.8	63	1mo ago
BIG-Bench Hard (BBH) (test)	GPT-4o	Average Accuracy87.3	62	14d ago
Humanity's Last Exam	HEART	Accuracy84.61	60	15d ago
AIME 24	PETS-On.	Accuracy70	58	2mo ago

Showing 25 of 594 rows

...