Share your thoughts, 1 month free Claude Pro on usSee more

Code Generation on HumanEval (pass@1, Final Gap)

96.95pass@1

Qwen3 Model

Updated 26d ago

Evaluation Results

Method
Qwen3 Model 2025.09	96.95	-	-
Uno-Orchestra 2026.05	93.1	-	-
TRACE-LF 2026.05	90.9	-	-
Pioneer Agent 2026.04	90.3	17.8	-
CodeSim 2025.02	90.2	-	-
Qwen3 Model 2025.09	89.63	-	-
AgentOrchestra 2026.05	89.2	-	-
Pioneer Agent 2026.04	89	17.8	-
xRouter 2026.05	88.1	-	-
FULL TOKENS 2026.06	87.8	-	-
CODEBLOCK 2026.06	87.8	-	-
BASE 2026.06	87.2	-	-
Qwen3 Model 2025.09	87.2	-	-
CODEBLOCK 2026.06	86.6	-	-
CLAM 2026.06	86.6	-	-
DS2 2026.06	86	-	-
MOC 2026.06	85.98	-	-
RANDOM SELECTION 2026.06	85.4	-	-
DS2 2026.06	85.4	-	-
CLAM 2026.06	85.4	-	-
MOC 2026.06	85.37	-	-
RANDOM SELECTION 2026.06	85.1	-	-
Qwen2.5 7B 2026.06	84.8	-	-
Vanilla MAS 2026.06	84.76	-	-
MOC 2026.06	84.76	-	-
AOrchestra 2026.05	84.2	-	-
BASE 2026.06	84.2	-	-
TOKEN CLEANING 2026.06	84.2	-	-
Vanilla MAS 2026.06	84.15	-	-
Qwen3 Model 2025.09	83.54	-	-
Vanilla MAS 2026.06	82.93	-	-
CodeSim 2025.02	82.9	-	-
AR-OPD 2026.06	82.6	-	-
FULL TOKENS 2026.06	82.3	-	-
TOKEN CLEANING 2026.06	82.3	-	-
Single LLM 2026.06	81.71	-	-
AAPA 2025.09	81.71	-	-
TRACE-CS 2026.05	81.1	-	-
CodeSim 2025.02	79.9	-	-
Partial OPD 2026.06	79.4	-	-
Base 2026.06	79.2	-	-
Full OPD 2026.06	78.8	-	-
MOC 2026.06	78.66	-	-
MOC 2026.06	78.05	-	-
MOC 2026.06	78.05	-	-
Vanilla MAS 2026.06	77.44	-	-
Vanilla MAS 2026.06	77.44	-	-
Vanilla MAS 2026.06	76.83	-	-
MOC 2026.06	76.83	-	-
SFT 2026.06	76.8	-	-
Vanilla MAS 2026.06	76.22	-	-
Qwen3 Model 2025.09	75.61	-	-
CoT 2025.02	75.6	-	-
TRACE-CS 2026.05	75.6	-	-
CodeSim 2025.02	75	-	-
Sequential Fine-tuning 2026.05	75	-	-
Sequential LoRA 2026.05	75	-	-
Naive Baseline 2026.04	74.4	17.8	-
Reflexion 2025.02	73.8	-	-
Joint Fine-tuning 2026.05	73.8	-	-
TRACE-LF 2026.05	73.2	-	-
Single LLM 2026.06	73.17	-	-
AC-ODM-410M 2025.05	72.644	-	-
DreamCoder-7B-Instruct 2026.06	72.56	-	-
DreamCoder + DiffuCoder 2026.06	72.56	-	-
DreamCoder + DiffuCoder 2026.06	72.56	-	-
Naive Baseline 2026.04	72.5	17.8	-
ColdStart-LLM 2026.05	72.4	-	-
Qwen2.5-Coder-7B w/ CADFT 2026.04	71.3	-	61.5
DiffuCoder-7B-Instruct 2026.06	70.12	-	-
DMT 2026.05	68.9	-	-
Qwen2.5-Coder-7B w/ DFT 2026.04	67.7	-	59.8
Baseline 2026.02	67.07	-	-
Qwen3 Model 2025.09	67.07	-	-
TAC 2026.06	66.7	-	-
InnerQBase 2026.02	66.46	-	-
iLLaDA 8B 2026.06	65.9	-	-
RouterDC 2026.06	65.24	-	-
DLLG 2026.06	65.24	-	-
Random 2026.06	65.2	-	-
M2O 2026.06	65	-	-
SEC 2026.06	64.8	-	-
InnerQHybrid 2026.02	64.63	-	-
InnerQSmall 2026.02	64.63	-	-
Qwen2.5-Coder-1.5B-Instruct 2026.06	64.63	-	-
KIVI 2026.02	64.02	-	-
KIVISink 2026.02	64.02	-	-
Pack of LLMs 2026.06	64.02	-	-
Direct 2025.02	64	-	-
MSA-PT 2026.06	64	-	-
TurboQuant 2026.02	63.42	-	-
Token Maj-Voting 2026.06	62.8	-	-
Reflexion 2025.02	62.2	-	-
Qwen2.5-Coder-7B 2026.04	62.2	-	53
Entropy Weighting 2026.06	62.19	-	-
TRACE-CS 2026.05	61.6	-	-
UniTe 2026.06	61.59	-	-
Full 2026.06	61	-	-
GaC 2026.06	60.98	-	-
AC-ODM 2025.05	60.256	-	-

Showing 100 of 329 rows