Share your thoughts, 1 month free Claude Pro on usSee more
WorkDL logo mark

Mathematical Reasoning on Overall

89.6Accuracy

WHISPER

10.14430.77251.472.028May 16, 2025Jul 11, 2025Sep 5, 2025Oct 31, 2025Dec 26, 2025Feb 20, 2026Apr 18, 2026
Updated 15d ago

Evaluation Results

MethodLinks
2025.10
89.6----63
2025.10
89.5----83.9
2025.10
88.7----88
2025.10
87.9----100
2025.10
87.6----75.1
2025.10
87.6----80.5
2025.10
86.3----78
2025.10
86.1----94.4
2025.10
85.9----100
2025.10
85.8----81.3
2025.10
83.9----83.3
2025.10
82.3----78.6
2026.04
82.1---68-
2026.04
80.9---89.7-
2026.04
80.4---67.9-
2025.05
80.17-----
2026.04
79.9---100-
2026.04
79.9---62.9-
2026.04
79.3---100-
2026.04
79.3---86.9-
2025.05
79.15-----
2026.04
79.1---68.7-
2025.10
79----80.3
2025.05
78.84-----
2025.10
78.5----100
2025.10
78.5----96.7
2026.04
78.4---53.2-
2025.10
78.4----86.8
2025.10
78----92.6
2026.04
77.6---68.1-
2026.04
77.6---52.8-
2026.04
77.5---61.5-
2026.04
77.4---69.2-
2025.10
76.5----84
2026.04
75.5---70.4-
2026.04
72.6---78.9-
2025.10
69.8----28.8
2026.04
67.6---80.3-
2025.05
66.19-----
2026.04
66.1---88.3-
2025.05
65.42-----
2025.05
65.41-----
2025.05
65.08-----
2025.05
64.91-----
2026.01
64.5--8,499--
2025.05
63.72-----
2026.04
63.2---69.7-
2025.05
62.85-----
2026.04
62.5---70.8-
2025.10
62.5----23.5
2026.04
61.9---68.3-
2026.04
61.5---76.1-
2026.04
61.2---100-
2026.04
60.7---57.5-
2025.10
56----31.9
2025.05
53.81-----
2025.05
53.06-----
2025.05
51.58-----
2026.04
51.2---100.2-
2026.01
46.9--13,506--
2026.01
45.6--9,852--
2025.05
45.06-----
2025.06
45--3,696--
2025.05
44.39-----
2025.06
44--6,183--
2025.05
43.74-----
2025.06
43.1--1,334--
2025.05
41-----
2025.05
40.11-----
2025.05
39.85-----
2025.06
37--1,949--
2025.06
36.5--2,437--
2025.06
34.2--3,230--
2025.06
34.2--1,653--
2025.06
32.6--6,870--
2025.06
27.1--1,118--
2025.06
20.5--975--
2025.06
17.3--1,000--
2025.06
15.5--1,712--
2025.06
14.6--767--
2025.06
13.2--1,922--
2026.01
-51.773.29,388--
2026.01
-65.8807,709--
2026.01
-4566.59,195--