BBEH

Benchmarks

Task Name	Dataset Name	SOTA Result
General Reasoning	BBEH	Accuracy78.8	76
Semantic Uncertainty Stability Prediction	BBEH	DCS AUROC97	35
Causality	BBEH	KL Divergence (nats)3.78	35
Minimality Evaluation	BBEH (test)	Delta IB (nats)-0.99	35
Same-task discrimination accuracy	BBEH	Same-task Accuracy72.6	35
Logical Reasoning	BBEH	Accuracy58.9	27
Reasoning	BBEH	pass@115.7	23
Causal Reasoning	BBEH	Accuracy (Causal Reasoning)55.2	14
Reasoning	BBEH (test)	Accuracy34.5	14
LLM Routing	BBEH (val)	Top-1 Acc66.4	14
LLM Routing	BBEH	Top-1 Accuracy66.4	14
Reasoning	BBEH mini	Pass@114.8	13
General Reasoning	BBEH	Pass@19.94	12
Reasoning	BBEH	Accuracy81.2	12
Algorithmic Reasoning	BBEH Mini	Accuracy17.8	11
Reasoning	BBEH	Accuracy75.8	7
Adding Mistake	BBEH	AOC67.2	7
Truncated CoT Answering	BBEH	AOC0.665	7
Logical Reasoning	BBEH mini	Accuracy17	6
Reasoning	bbeh	Score52.37	5
Web of Lies	BBEH Web of Lies	Accuracy90.12	3
Dyck Languages	BBEH Dyck Languages	Accuracy91.25	3
Disambiguation QA	BBEH Disambiguation QA	Accuracy65.41	3

Showing 23 of 23 rows