Share your thoughts, 1 month free Claude Pro on usSee more

Reasoning on AIME 25 (average score)

44.11Average Score

REINFORCE++ (Ours)

Updated 5mo ago

Evaluation Results

Method	Links
REINFORCE++ (Ours) 2025.12		44.11
Qwen3-8B + SFT (STAR-1) 2025.12		42.55
Qwen3-8B + CPO 2025.12		42.29
Qwen3-8B (thinking) 2025.12		40.57
Qwen3-8B + SFT (SafeChain) 2025.12		39.06
Qwen3-8B + SFT (R2D-R1) 2025.12		36.04
REINFORCE++ (Ours) 2025.12		32.14
DeepSeek-R1-Distill-Qwen-7B + SFT (STAR-1) 2025.12		31.87
DeepSeek-R1-Distill-Qwen-7B 2025.12		30.52
DeepSeek-R1-Distill-Qwen-7B + SFT (R2D-R1) 2025.12		29.38
DeepSeek-R1-Distill-Qwen-7B + SFT (SafeChain) 2025.12		28.64
DeepSeek-R1-Distill-Qwen-7B + CPO 2025.12		27.86