Share your thoughts, 1 month free Claude Pro on usSee more
WorkDL logo mark

Mathematical Reasoning on SVAMP

97Accuracy

GPT-4o + QuaSAR

84.83287.99191.1594.309Jun 6, 2022Jan 26, 2023Sep 18, 2023May 9, 2024Dec 30, 2024Aug 21, 2025Apr 13, 2026
Updated 4d ago

Evaluation Results

MethodLinks
2025.02
97----
2026.03
96.46----
2026.03
95.8----
95.63----
2026.03
95.5----
2026.03
95.4----
2025.02
95.3----
2024.05
94.8----
2024.02
94.8----
94.7----
93.9----
93.7----
2026.01
93.4----
2026.03
93.4----
2026.02
93.3--608-
2025.11
93.2----
2026.01
93.1----
2026.03
93.1----
2026.02
93--656107
2026.02
93--612100
2026.02
93--47378
2024.05
92.9----
2024.10
92.6----
2026.01
92.4----
2026.01
92.2----
2023.04
91.92.07---
2026.02
91.8--12721
2026.03
91.8----
2025.11
91.76----
2026.01
91.6----
91.04----
2026.03
90.58----
2025.11
90.53----
2023.04
90.5----
2026.01
90.5----
2025.02
90.4----
2024.05
90.4----
2026.01
90.4----
2025.02
90.3----
2024.05
90.3----
2026.01
90.3----
2026.02
90.3--54189
2025.11
90.29----
2024.05
90.2----
2026.03
90.11----
2024.05
90----
2026.02
90--697115
2026.02
90--30149
2026.02
90--34152
2024.05
89.9----
2026.01
89.7----
2025.11
89.64----
2026.02
89.6----
2025.11
89.52----
2025.02
89.5----
2025.03
89.5----
2024.05
89.4----
2024.05
89.2----
2024.05
89.2----
2023.04
89.1----
2026.01
89.1----
2026.03
88.91----
2025.03
88.9----
2025.02
88.7----
2026.03
88.59----
2025.11
88.48----
2026.01
88.3----
2026.01
88.3----
88.26----
2025.02
88.1----
2025.11
88.06----
2025.11
87.92----
2024.02
87.8----
2026.03
87.54----
2025.03
87.4----
2026.03
87.36----
2024.09
87.33----
2024.05
87.3----
2026.02
87.3--20834
2026.03
87.17----
2025.11
87.02----
2022.06
87----
2026.01
86.8----
2022.06
86.6----
2026.03
86.55----
2024.09
86.33----
2025.11
86.24----
2024.05
86.2----
2026.04
86.2----
2026.04
86.1----
86----
2025.02
85.9----
2026.02
85.9----
2022.06
85.8----
2026.02
85.7--50283
2026.04
85.7----
2024.09
85.67----
2026.01
85.5----
2025.02
85.3----
2026.04
85.3----
Showing 100 of 403 rows