Share your thoughts, 1 month free Claude Pro on usSee more

Program Synthesis on HumanEval (test)

92.37Accuracy

SC-MAS

Updated 1mo ago

Evaluation Results

Method	Links
SC-MAS 2026.01		92.37	-	-
MasRouter 2026.01		90.62	-	-
AFlow 2026.01		90.06	-	-
RouterDC 2026.01		87.75	-	-
FrugalGPT 2026.01		87.31	-	-
AgentPrune 2026.01		86.8	-	-
Vanilla 2026.01		86.33	-	-
PromptLLM 2026.01		86.33	-	-
GPTSwarm 2026.01		86.28	-	-
Vanilla 2026.01		85.71	-	-
AFlow 2026.01		85.69	-	-
RouteLLM 2026.01		83.85	-	-
Vanilla 2026.01		82.61	-	-
AgentPrune 2026.01		82.55	-	-
GPTSwarm 2026.01		82.36	-	-
Vanilla 2026.01		80.75	-	-
Confidence 2026.06		57.32	38.3	90.4
DAWN 2026.06		54.88	44.77	76.2
LocalLeap 2026.06		54.27	42.79	76.1
Original 2026.06		53.66	16.62	256
LocalLeap + AXON 2026.06		44.51	20.42	77.6
LocalLeap + AXONCVR 2026.06		44.51	22.91	73
Original 2026.06		43.9	6.04	256
Confidence + AXON 2026.06		43.9	18.53	93.6
Confidence 2026.06		43.29	15.61	100.6
Confidence + AXONCVR 2026.06		43.29	19.74	91
DAWN + AXON 2026.06		42.68	26.96	62.9
LocalLeap + AXON 2026.06		42.68	76.66	63.1
DAWN 2026.06		42.07	22.96	77.3
LocalLeap + AXONCVR 2026.06		42.06	79.39	60.2
LocalLeap 2026.06		41.46	19.83	75.2
Confidence 2026.06		40.85	58.96	77.9
Confidence + AXON 2026.06		40.55	65.45	74.6
Confidence + AXONCVR 2026.06		40.55	66.23	73.6
Original 2026.06		40.24	18.09	256
DAWN 2026.06		40.24	80.26	63.2
DAWN + AXON 2026.06		39.98	92	53.2
LocalLeap 2026.06		39.63	71.2	61.4
DAWN + AXONCVR 2026.06		39.58	92.22	52.4
DAWN + AXONCVR 2026.06		39.02	29.11	59.6