Share your thoughts, 1 month free Claude Pro on usSee more

Mathematical Reasoning on AIME 2024 (Reward-weighted Pass@1)

3.45Reward-weighted Pass@1

SFT

Updated 3mo ago

Evaluation Results

Method	Links
SFT 2025.10		3.45
AIRL (Sparse) 2025.10		3.43
AIRL (Step-wise) 2025.10		3.41
AIRL (Interval) 2025.10		3.31
AIRL (Dense) 2025.10		3
SFT 2025.10		2.59
AIRL (Sparse) 2025.10		1.21
AIRL (Dense) 2025.10		1.11
AIRL (Step-wise) 2025.10		1.05
AIRL (Interval) 2025.10		0.86