Share your thoughts, 1 month free Claude Pro on usSee more

Logical Reasoning on BigBench Hard Boolean Expressions

76.8Accuracy

ReElicit

Updated 1mo ago

Evaluation Results

Method	Links
ReElicit 2026.05		76.8
DART 2026.05		73.9
GRPO 2026.05		73.7
STaR 2026.05		73
TESSY 2026.05		72.8
Base 2026.05		72.6
APE 2026.05		71.9
TextGrad 2026.05		66.9
OPRO 2026.05		65
PromptBreeder 2026.05		64.3
Original-SFT 2026.05		63
Original-SFT 2026.05		56.2
GRPO 2026.05		50.3
DART 2026.05		50.1
STaR 2026.05		47.1
Base 2026.05		46.6
TESSY 2026.05		39.4