Share your thoughts, 1 month free Claude Pro on usSee more

Mathematical Reasoning on AIME 2024 (Average Accuracy @32 samples)

15.4Accuracy @32 samples

SPICE

Updated 4mo ago

Evaluation Results

Method	Links
SPICE 2026.03		15.4
WIST 2026.03		14.8
R-Zero 2026.03		14
SPICE 2026.03		12
Base Model 2026.03		11.7
WIST 2026.03		11.6
R-Zero 2026.03		10.3
Base Model 2026.03		9.5
SPICE 2026.03		4.8
R-Zero 2026.03		3.5
WIST 2026.03		3.2
SPICE 2026.03		2.7
Base Model 2026.03		2.4
WIST 2026.03		1.9
R-Zero 2026.03		1.8
Base Model 2026.03		1.7