Share your thoughts, 1 month free Claude Pro on usSee more
WorkDL logo mark

Code Reasoning on HumanEval

95.73HumanEval Score

DeepSeek-R1-Distill-Qwen-14B (Reasoning)

-3.194822.487648.1773.8524Oct 24, 2024Jan 24, 2025Apr 26, 2025Jul 27, 2025Oct 27, 2025Jan 27, 2026Apr 29, 2026
Updated 2d ago

Evaluation Results

MethodLinks
2026.01
95.73--
2026.01
92.41--
2026.01
92.32--
2026.01
91.46--
2026.01
89.57--
2026.01
89.02--
2026.01
88.41--
2024.10
86.669.9-
2026.01
86.59--
2026.01
84.31--
2026.01
84.15--
2024.10
84.169.3-
2026.01
82.32--
2026.01
82.32--
2025.12
79.9--
2024.10
79.364-
2026.01
78.8--
2025.12
75--
2026.01
74.39--
2025.12
73.2--
2026.04
73.2--
2026.04
72.6--
2026.04
72.2--
2025.12
70.1--
2026.04
68--
2026.01
67.66--
2026.01
64.63--
2026.04
64.6--
2025.12
64--
2026.04
62.4--
2026.04
62--
2026.01
61.59--
2026.01
61.59--
2026.04
61--
2026.01
59.15--
2026.04
56.9--
2026.04
48.1--
2026.04
47.8--
2026.04
44.7--
2026.04
43.6--
2026.01
42.94--
2026.04
42.7--
2026.01
40.85--
2026.04
39.2--
2026.01
38.66--
2026.03
35.3--
2026.01
34.15--
2026.04
26.7--
2026.04
23--
2026.04
22.9--
2026.04
20.3--
2026.03
19.9--
2026.04
19.7--
2026.01
19.51--
2026.01
19.51--
2026.04
18.9--
2026.04
16.4--
2026.03
12.8--
2026.03
11.2--
2026.03
6.1--
2026.01
3.66--
2026.01
0.61--
2025.09
-70.4-
2025.09
-67.5-
2025.09
-73.2-
2025.09
-76.5-
2025.09
-74.9-
2025.09
-89.6-
2025.09
-88.6-
2025.09
-92.5-
2025.09
-91.9-
2025.09
-93-
2026.05
--1.2
2026.05
--1.8
2026.05
--1.2
2026.05
--1.8
2026.05
--3
2026.05
--3.8
2026.05
--6.2
2026.05
--7.6
2026.05
--6.8
2026.05
--8.3
2026.05
--7.1
2026.05
--11.2