Share your thoughts, 1 month free Claude Pro on usSee more

Combinatorial Optimization on Crew Scheduling (test)

63.53Average Performance

MCTS-AHD

Updated 2mo ago

Evaluation Results

Method	Links
MCTS-AHD 2026.05		63.53	86.21
MEMOIR (GPT-5-mini w/ GPT-5 critic) 2026.05		62.4	89.66
MEMOIR (GPT-5-mini) 2026.05		57.83	75.86
GPT-5-mini 2026.05		57.35	65.52
AIDE 2026.05		56	72.41
FunSearch 2026.05		55.64	62.07
GreedyRefine 2026.05		55.45	62.07
ReEvo 2026.05		52.74	65.52
GPT-5 Chat 2026.05		51.65	75.86
Classical Solver 2026.05		45.5	-
o3-mini-high 2026.05		44.12	65.52
MEMOIR (Qwen2.5-Coder-32B) 2026.05		31.55	55