Share your thoughts, 1 month free Claude Pro on usSee more

Domain Reasoning on HL

75Accuracy

Best-of-N (N=3)

Updated 4mo ago

Evaluation Results

Method	Links
Best-of-N (N=3) 2026.03		75
RM-Regen 2026.03		75
RM-Regen 2026.03		73
RM-Regen 2026.03		73
RM-Regen 2026.03		73
Reflexion(3 iters) 2026.03		72
ReflectEvo 2026.03		72
Reflexion(3 iters) 2026.03		71
RM-Regen 2026.03		71
RM-Regen 2026.03		71
Best-of-N (N=3) 2026.03		70
Reflexion(3 iters) 2026.03		70
ST CoT 2026.03		69
ProCo 2026.03		69
ST CoT 2026.03		68
Best-of-N (N=3) 2026.03		67
ST CoT 2026.03		66
ProCo 2026.03		65
Self-Refine 2026.03		65
ReflectEvo 2026.03		62
Self-Refine 2026.03		59
Self-Refine 2026.03		53
ProCo 2026.03		48