Our new X account is live! Follow @wizwand_team for updates
WorkDL logo mark

Mathematical Reasoning on GSM8K (Accuracy %)

97.8Accuracy (GSM8K)

Pass@8 (Upper Bound)

82.865686.742890.6294.4972May 20, 2025Jul 3, 2025Aug 17, 2025Sep 30, 2025Nov 14, 2025Dec 28, 2025Feb 11, 2026
Updated 3d ago

Evaluation Results

MethodLinks
2025.05
97.8---
2025.05
96.7---
2025.05
96.7---
2025.05
96.7---
2025.05
96.6---
2025.05
96.6---
2025.05
96.5---
2025.05
96.5---
2025.05
96.5---
2025.05
96.4---
2026.02
96.29--0.38
2025.05
96.2---
2025.05
96.2---
2025.05
96---
2026.02
95.91---
2025.05
95.8---
2026.01
95.75---
2026.02
95.75--1.29
2026.02
95.75---0.16
2026.01
95.6---
2025.05
95.5---
2026.02
95.45---0.46
2026.02
95.3--0.84
2025.05
95.1---
2026.01
95.07---
2026.02
95--0.54
95---
2026.01
94.84---
2026.01
94.54---
2026.02
94.46---
2026.01
94.09---
93.8---
2026.01
93.78---
2026.01
93.4---
2026.02
93.4---
2026.02
93.4---
2026.02
93.2---
93---
2026.01
92.9---
92.8---
2026.02
92.8---
2026.02
92.65---
2026.02
92.4---
2026.02
92.34---
2026.01
92.3---
2026.01
92.1---
2026.02
91.6---
2026.01
91.4---
2025.12
91.3---
2026.01
91.28---
2026.02
91.2---
2026.01
91.1---
2025.12
91---
90.8---
2026.01
90.75---
2026.01
90.45---
2026.02
90.37---
2026.01
90.3---
2026.01
89.99---
2026.01
89.62---
2026.01
89.5---
2026.01
89.4---
2026.01
89.4---
2026.02
89.23---
2026.02
89.05---
2025.12
89---
2026.01
88.98---
2026.02
88.48---
2026.02
88.42---
2026.02
88.24---
2026.02
88.17---
2025.12
88---
2026.01
87.83---
2026.02
87.79---
2026.01
87.55---
2026.02
87.11---
2026.02
87.11---
2025.12
87---
2026.02
86.96---
2026.02
86.73---
2026.02
86.58---
2026.02
86.43---
2026.01
86---
2026.01
86---
2026.01
85.6---
2026.02
85.52---
2026.01
85.4---
2025.12
84.84---
2026.01
84.83---
2026.01
84.8---
2025.12
84.61---
84.6---
2026.01
84.38---
2025.12
84.08---
2026.01
84---
2025.12
84---
2025.12
83.93---
2025.12
83.78---
2025.12
83.62---
2026.01
83.44---
Showing 100 of 370 rows