Our new X account is live! Follow @wizwand_team for updates
WorkDL logo mark

Mathematical Reasoning on AIME 24

93.3AIME 24 Accuracy

GPT-5

-3.73221.45946.6571.841Oct 24, 2024Jan 10, 2025Mar 30, 2025Jun 17, 2025Sep 4, 2025Nov 22, 2025Feb 9, 2026
Updated 4d ago

Evaluation Results

MethodLinks
2026.01
93.3
2026.02
92
2026.01
92
2026.02
91.3
2026.02
90.7
2026.02
90.7
2026.02
90.7
2026.02
90.6
2026.02
90.6
2026.02
90
2026.02
90
2026.02
90
2026.02
90
2026.02
89.3
2026.02
89.3
2026.02
87.4
2026.02
86.7
2026.02
86
2026.02
86
2026.02
85.4
2026.02
85.4
2026.02
85.4
2026.02
85.3
2026.02
82
2026.02
80.7
2026.02
76.7
2024.10
53.3
2026.02
46.7
2026.01
46.7
2024.10
43.3
2026.02
43.3
2026.01
43.3
2026.01
43.3
2026.02
40
2026.02
40
2026.01
40
2026.02
33.3
2026.02
33.3
2026.01
30
2026.02
26.7
2026.02
26.7
2026.02
26.7
2026.01
26.7
2026.01
23.33
2026.01
23.33
2025.12
23.33
2026.02
23.3
2026.02
23.3
2026.01
23.3
2026.02
20
2025.12
20
2026.02
16.7
2026.01
16.67
2025.12
16.67
16.67
2025.12
16.67
2025.12
16.67
2025.12
16.67
2025.12
13.33
2025.12
13.33
2026.02
13.3
2026.02
13.3
2026.01
13.3
2026.01
13.3
2026.01
13.3
2026.01
13.3
2026.01
13.3
2026.02
10
2026.02
10
2026.02
10
2026.01
10
2025.12
10
2025.12
10
2026.02
6.7
2026.02
6.7
2026.01
6.7
2026.01
6.7
2026.01
6.67
2026.01
6.67
2026.01
3.33
2026.01
3.33
2026.02
3.3
2026.02
0
2026.01
0