Share your thoughts, 1 month free Claude Pro on usSee more

Mathematical Reasoning on AIME 2025 (Accuracy (%))

40.8Accuracy (%)

SPIRAL

Updated 4mo ago

Evaluation Results

Method	Links
SPIRAL 2025.06		40.8
DeepSeek-Distill-Qwen-7B 2025.06		39.5
SFT 2025.06		36.6
SPIRAL 2025.06		16.8
SPIRAL 2025.06		15.6
SFT 2025.06		15.6
SPIRAL 2025.06		13.3
SFT 2025.06		11.7
Qwen3-8B-Base 2025.06		11.2
SFT 2025.06		10.4
Qwen3-4B-Base 2025.06		6.2
SPIRAL 2025.06		4.8
SFT 2025.06		3.8
SPIRAL 2025.06		1.8
Llama-3.1-8B-Instruct 2025.06		0.7
SFT 2025.06		0.7
Octothinker-8B-Base 2025.06		0.5