Share your thoughts, 1 month free Claude Pro on usSee more

Multi-task Generalization on Countdown and OOD Tasks Overall (test)

35.9Accuracy

R1 Distill -> GRPO

Updated 5mo ago

Evaluation Results

Method	Links
R1 Distill -> GRPO 2025.12		35.9
SkillFactory -> GRPO 2025.12		35.7
BOLT -> GRPO 2025.12		33
RL-Only 2025.12		31.9
R1 Distill 2025.12		30.3
STaR -> GRPO 2025.12		30.2
Qwen2.5 1.5B Instruct 2025.12		27.3
SkillFactory 2025.12		25.5
STaR 2025.12		20.4
BOLT 2025.12		16.2