Share your thoughts, 1 month free Claude Pro on usSee more

Math Reasoning on AIME 2022–2024

9.27Accuracy

GRPO + WeMask (TF)

Updated 2mo ago

Evaluation Results

Method	Links
GRPO + WeMask (TF) 2026.05		9.27
GRPO + WeMask (TA) 2026.05		7.8
GRPO 2026.05		7.4
Qwen3-4B 2026.05		5.92