Share your thoughts, 1 month free Claude Pro on usSee more
WorkDL logo mark

Mathematical Problem Solving on AIME 25

93.3Accuracy

gpt-oss-20b-high

-2.69222.22947.1572.071Nov 11, 2025Nov 26, 2025Dec 11, 2025Dec 26, 2025Jan 10, 2026Jan 25, 2026Feb 10, 2026
Updated 1mo ago

Evaluation Results

MethodLinks
2026.02
93.31.74--
2026.02
93.30.55--
2026.02
93.31.57--
2026.02
86.70.74--
2026.02
83.30.49--
2026.02
800.5--
2026.02
73.30.44--
2026.02
73.30.43--
2026.02
73.3-16.6-
2026.02
73.3---
2026.02
700.39--
2026.02
66.7-10-
2026.02
66.7-10-
2026.02
66.7---
2026.02
66.7---
2026.02
63.3-20-
2026.02
63.3-6.6-
2026.02
63.3-6.6-
2026.02
63.3---
2026.02
60-3.3-
2026.02
60---
2026.02
56.70.43--
2026.02
56.7---
2026.02
56.7---
2026.02
56.7---
2026.02
56.7---
2026.02
56.7---
2026.01
54.55---
2026.02
53.3-10-
2026.02
53.3---
2026.02
53.3---
2026.02
53.3---
2026.02
53.3---
2026.02
53.3---
2026.02
53.3---
2026.02
53.3---
2026.01
50---
2026.01
50---
2026.02
50-6.7-
2026.02
50-6.7-
2026.02
50---
2026.02
50---
2026.02
50---
2026.02
46.7-3.4-
2026.02
46.7---
2026.02
43.30.52--
2026.02
43.3---
2026.02
43.3-0-
2026.01
40.91---
2026.01
40.91---
2026.02
400.07--
2026.02
40---
2025.11
30.4---
2025.11
28.3---
2025.11
23.3---
2026.01
22.73---
2025.11
22.5---
2025.11
22.5---
2025.11
17.9---
2025.11
14.6---
2025.11
13.3---
2025.11
12.9---
2025.11
10.2---
2026.02
100.04--
2025.11
10---
2025.11
5---
2025.11
4.2---
2025.11
4.2---
2025.11
2.5---
2025.11
1.5---
2025.11
1---
2026.02
---24.36