Share your thoughts, 1 month free Claude Pro on usSee more

Multi-step Reasoning on Bamboogle auto-eval (test)

76.1Mean Accuracy

Self-improvement, 2nd gen

Updated 5mo ago

Evaluation Results

Method	Links
Self-improvement, 2nd gen 2023.12		76.1	1.3
Self-improvement, 1st gen 2023.12		74	3.3
Pilot, human filtered 2023.12		71.5	2.2
Pre-trained 2023.12		70.3	3.5
Self-improvement, 2nd gen 2023.12		69.7	1.3
Self-improvement, 2nd gen 2023.12		65.9	2.6
Self-improvement, 1st gen 2023.12		61.9	1.9
Pilot, human filtered 2023.12		56.6	3.8
Self-improvement, 1st gen 2023.12		54.4	3.6
Pilot, human filtered 2023.12		44.7	3.1