Share your thoughts, 1 month free Claude Pro on usSee more

Code Reasoning on HumanEval

95.73HumanEval Score

DeepSeek-R1-Distill-Qwen-14B (Reasoning)

Updated 1mo ago

Evaluation Results

Method
DeepSeek-R1-Distill-Qwen-14B (Reasoning) 2026.01	95.73	-	-
DeepSeek-R1-Distill-Qwen-32B (Reasoning) 2026.01	92.41	-	-
ReasonAny 2026.01	92.32	-	-
TIES 2026.01	91.46	-	-
Reasoning 2026.01	89.57	-	-
Linear 2026.01	89.02	-	-
Task Arithmetic 2026.01	88.41	-	-
Qwen2.5-Coder-ScaleQuest 2024.10	86.6	69.9	-
ReasonAny 2026.01	86.59	-	-
Qwen2.5-32B-Instruct (Safety) 2026.01	84.31	-	-
TIES 2026.01	84.15	-	-
Qwen2.5-Coder-CFB-Aug 2024.10	84.1	69.3	-
Linear 2026.01	82.32	-	-
DARE 2026.01	82.32	-	-
Sigma-MoE-Tiny 2025.12	79.9	-	-
Qwen2.5-Coder-CFB 2024.10	79.3	64	-
Qwen2.5-14B-Instruct (Safety) 2026.01	78.8	-	-
Phi-3.5-MoE 2025.12	75	-	-
FuseLLM 2026.01	74.39	-	-
DeepSeek-R1-Distill-Llama-8B 2025.12	73.2	-	-
Takeover 2026.04	73.2	-	-
S2T 2026.04	72.6	-	-
R2R 2026.04	72.2	-	-
Qwen3-1.7B 2025.12	70.1	-	-
SpecR 2026.04	68	-	-
ReasonAny 2026.01	67.66	-	-
DARE 2026.01	64.63	-	-
R2R 2026.04	64.6	-	-
DeepSeek-R1-Distill-Qwen-7B 2025.12	64	-	-
SpecR 2026.04	62.4	-	-
Takeover 2026.04	62	-	-
LED 2026.01	61.59	-	-
Task Arithmetic 2026.01	61.59	-	-
S2T 2026.04	61	-	-
Linear 2026.01	59.15	-	-
S2TLocal 2026.04	56.9	-	-
Distil 2026.04	48.1	-	-
TSD-KD 2026.04	47.8	-	-
Mul-T 2026.04	44.7	-	-
TaH 2026.04	43.6	-	-
Safety 2026.01	42.94	-	-
Greedy 2026.04	42.7	-	-
LED 2026.01	40.85	-	-
Sample 2026.04	39.2	-	-
LED 2026.01	38.66	-	-
Ours 2026.06	38.1	-	-
OursQ 2026.06	36.6	-	-
Teacher (Qwen3-0.6B) 2026.03	35.3	-	-
Baseline 2026.06	34.2	-	-
TIES 2026.01	34.15	-	-
C-Prune 2026.06	32.9	-	-
Baseline 2026.06	32.3	-	-
Ours 2026.06	28.7	-	-
S2TLocal 2026.04	26.7	-	-
OursQ 2026.06	23.8	-	-
TSD-KD 2026.04	23	-	-
Distil 2026.04	22.9	-	-
TaH 2026.04	20.3	-	-
Hybrid KDA 2026.03	19.9	-	-
Mul-T 2026.04	19.7	-	-
FuseLLM 2026.01	19.51	-	-
FuseLLM 2026.01	19.51	-	-
Greedy 2026.04	18.9	-	-
C-Prune 2026.06	18.9	-	-
Sample 2026.04	16.4	-	-
Pure KDA 2026.03	12.8	-	-
Hybrid Mamba 2026.03	11.2	-	-
Pure Mamba 2026.03	6.1	-	-
DARE 2026.01	3.66	-	-
Task Arithmetic 2026.01	0.61	-	-
DS-R1-Distill-Qwen-1.5B 2025.09	-	70.4	-
GRPO 2025.09	-	67.5	-
DAPO 2025.09	-	73.2	-
CE-GPPO 2025.09	-	76.5	-
CE-GPPO 2025.09	-	74.9	-
DS-R1-Distill-Qwen-7B 2025.09	-	89.6	-
GRPO 2025.09	-	88.6	-
DAPO 2025.09	-	92.5	-
CE-GPPO 2025.09	-	91.9	-
CE-GPPO 2025.09	-	93	-
Uniform Sampling 2026.05	-	-	1.2
Perplexity-based 2026.05	-	-	1.8
Loss-based 2026.05	-	-	1.2
GradNorm (IS) 2026.05	-	-	1.8
InfoBatch 2026.05	-	-	3
DiReCT 2026.05	-	-	3.8
Uniform Sampling 2026.05	-	-	6.2
Perplexity-based 2026.05	-	-	7.6
Loss-based 2026.05	-	-	6.8
GradNorm (IS) 2026.05	-	-	8.3
InfoBatch 2026.05	-	-	7.1
DiReCT 2026.05	-	-	11.2