Share your thoughts, 1 month free Claude Pro on usSee more

Mathematical Reasoning on NuminaMath (val)

21.7Accuracy

Claude 3.7 Sonnet

Updated 3mo ago

Evaluation Results

Method	Links
Claude 3.7 Sonnet 2026.02		21.7
Claude 3.5 Haiku 2026.02		16.3
Gold Match (Verifiable Rewards) 2026.02		16.1
DeepSeek-R1 2026.02		15.5
Rubric-Augmented Classifier 2026.02		15.2
Baseline Classifier 2026.02		10.5
Qwen3-4B (No RL) 2026.02		5.5
Mistral-7B 2026.02		3.7