BBH

Benchmarks

Task Name	Dataset Name	SOTA Result
Reasoning	BBH	Accuracy95.4	770
Logical Reasoning	BBH	Accuracy100	249
General Reasoning	BBH	Accuracy93.2	190
General Reasoning	BBH	BBH General Reasoning Accuracy94.6	117
Complex Reasoning	BBH	Accuracy90.5	99
Reasoning	BBH (test)	Accuracy73.9	94
Instruction Induction	BBH Induct	Accuracy91.3	80
Reasoning	BBH	BBH Score84.5	53
Reasoning	BBH	BBH Accuracy74.99	51
Reasoning	BBH	Score81.1	51
Reasoning	BBH 3-shot	BBH 3-shot Score65.69	49
Reasoning	BBH	BBH Pass@183.69	49
Reasoning	BBH	Accuracy67.56	42
Complex Reasoning	BBH (val)	Accuracy65.81	42
Causal Reasoning	BBH Causal Judgement	Accuracy (BBH Causal Judgement)78	40
Instruction Following	BBH	Accuracy67.1	40
Multi-domain reasoning	BBH	Accuracy87.39	39
Spatial Reasoning	BBH Navigate	Accuracy@198	33
Question Answering	BBH	Accuracy94.6	33
Logical Reasoning	BBH (test)	Top@1 Accuracy88.29	29
Complex Reasoning	BBH	Accuracy (%)89.14	28
Reasoning	BBH	Accuracy (BBH)76.7	28
Deductive Reasoning	BBH Ded.	Accuracy92.5	28
Common-sense Reasoning	BBH	Accuracy58.27	27
Instruction Tuning	BBH	Accuracy (BBH)66.2	24

Showing 25 of 104 rows