Share your thoughts, 1 month free Claude Pro on usSee more
WorkDL logo mark

Mathematical Reasoning on SVAMP (test)

94Accuracy

Self-Contrast

78.482.4586.590.55Jun 2, 2023Nov 11, 2023Apr 21, 2024Sep 30, 2024Mar 11, 2025Aug 20, 2025Jan 29, 2026
Updated 12d ago

Evaluation Results

MethodLinks
2024.01
94---
2024.05
93.7---
2024.01
93.6---
2024.01
93.4---
2024.01
93.3---
2024.01
93.2---
2024.01
93.2---
2026.01
93.2---
2024.01
93.1---
2026.01
93.1---
2024.01
93---
2024.05
92.6---
2024.01
92.5---
2024.05
92.2---
2026.01
92.2---
9211.2--
2024.05
91.9---
2026.01
91.9---
2026.01
91.6---
2024.01
91.5---
2026.01
91.2---
2026.01
90.9---
2025.03
90.2---
2026.01
90.1---
2026.01
90.1---
2026.01
90---
2025.03
89.624--
2025.02
89.5---
2024.01
89---
2025.02
88.4---
2025.02
88.1---
2026.01
87.9---
2025.03
87.524--
2026.01
87.3---
2026.01
86.7---
2023.11
86.6---
86.28--
2026.01
86.2---
2025.02
86.2---
2025.02
86.2---
2023.11
86---
2023.11
85.9---
2025.02
85.6---
2026.01
85.5---
2025.02
85.3---
2026.01
85.1---
2025.02
85.1---
2026.01
85---
2026.01
85---
2024.01
84.6---
2025.02
84.5---
2025.02
84.5---
2024.10
84.33---
2025.02
84.3---
2024.01
84.1---
2026.01
84---
2025.02
83.9---
2025.03
83.7---
2025.02
83.7---
2025.02
83.6---
2023.11
83.5---
2025.03
83.48--
2025.02
83.4---
2025.03
83.3121--
2026.01
83.1---
2024.10
83---
2026.01
83---
2025.02
82.8---
2025.02
82.7---
82.67---
2024.10
82.33---
2024.10
82.3---
2026.01
82.2---
2023.11
82---
2024.10
82---
2024.10
82---
2025.02
82---
2025.02
81.8---
2024.10
81.67---
2024.10
81.6---
2026.01
81.6---
2024.01
81.2---
2024.01
81.2---
2024.01
81.1---
2024.10
81.1---
2024.10
81---
2025.02
80.7---
2024.01
80.5---
2025.02
80.4---
2024.01
80.2---
2024.01
79.8---
2025.02
79.8---
2025.02
79.6---
2024.10
79.33---
2024.01
79.3---
2025.02
79.3---
2026.01
79.2---
2025.02
79.1---
79---
2023.11
79---
Showing 100 of 262 rows