Our new X account is live! Follow @wizwand_team for updates
WorkDL logo mark

Mathematical Reasoning on MATH 500 (accuracy)

97.9MATH 500 Accuracy

o3-mini-high

38.93254.24169.5584.859Oct 24, 2024Jan 11, 2025Apr 1, 2025Jun 20, 2025Sep 8, 2025Nov 27, 2025Feb 15, 2026
Updated 4d ago

Evaluation Results

MethodLinks
2025.01
97.9---
2025.01
97.3---
2025.01
97.3---
2025.09
96.7---
2025.01
95.8---
2025.01
95.4---
2025.01
95.4---
2025.09
95.09---
2025.01
94.8---
2025.09
94.8---
2025.01
94.5---
2025.01
94.4---
2025.01
94.3---
2025.01
93.9---
2025.01
93---
2025.01
92.8---
2025.01
92.6---
2025.01
92.2---
2025.09
92.07---
2025.09
91.01---
2024.10
91---
2025.09
91---
2025.01
90.6---
2024.10
90.2---
2025.11
90.2---
2025.09
89.94---
2026.02
89.62,568--
2026.02
892,080--
2025.09
88.9---
2026.02
87.64,062--
2026.02
875,096--
2026.02
86---
2025.11
85.8---
2025.11
85.6---
2025.11
85.4---
2025.09
85.38---
2026.02
83.8---
2026.02
83.8---
2025.12
83.6---
2025.12
83---
2026.02
82.8---
2026.01
82.7---
2026.02
82.4---
2026.01
82.2---
2025.09
82.07---
2026.02
82---
2026.02
81.6---
2026.01
81.6---
2026.02
81.6---
2026.02
80---
2026.02
80---
2026.01
79.5---
2026.02
79.4---
2026.02
79.2---
2026.02
78.2---
2026.01
77.4---
2026.01
77.25---
2026.01
77.2---
2026.02
75.2---
2025.11
74.2---
2026.02
74.2---
2026.02
74.2---
2025.11
73.6---
2025.11
73.2---
2026.02
71.6---
2025.09
70.48---
2025.12
68.3---
2026.02
67.8---
2026.02
66---
2026.02
65.6---
2026.02
65.2---
2026.02
65.2---
2025.11
63.6---
2026.02
61.8---
2026.02
60---
2026.02
58.2---
2025.11
58.2---
2026.01
58.1---
2026.02
57.2---
2026.02
56.4---
2026.02
56.2---
2026.01
56.2---
2026.02
55.8---
2026.02
54.6---
2026.01
54---
2026.01
53.6---
2026.01
53.56---
2026.01
53---
2026.01
52.8---
2026.01
52.6---
2026.01
51.93---
2026.01
51.2---
2026.01
50.8---
2026.02
50.6---
2026.01
50.4---
2026.01
49.8---
2026.02
48.4---
2026.01
46---
2025.09
45.07---
2025.11
41.2---
Showing 100 of 175 rows