Share your thoughts, 1 month free Claude Pro on usSee more

Mathematical Reasoning on Minerva-Math (avg@1)

47.1Avg@1 Accuracy

NPR (Variant)

Updated 4mo ago

Evaluation Results

Method	Links
NPR (Variant) 2025.12		47.1
NPR-BETA (Variant) 2025.12		45.9
NPR 2025.12		43
SR-BETA 2025.12		41.5
Qwen3-4B-Instruct-2507 2025.12		41.2
NPR-BETA 2025.12		41.2
Qwen2.5-32B-Instruct 2025.12		40.8
Multiverse-32B 2025.12		40
SR 2025.12		38.2
Multiverse-4B 2025.12		34.9
Robust Bellman 2025.12		31.99
DVPO 2025.12		31.62
PPO 2025.12		30.51
Base 2025.12		28.68
GRPO 2025.12		28.68
Qwen3-4B (Non-Thinking) 2025.12		28.5
Dr.GRPO 2025.12		27.94
Reinforce++ 2025.12		27.21
LCO-LCH 2026.03		24.26
LCO-KLD 2026.03		23.95
GRPO 2026.03		21.75
LCO-MSE 2026.03		21.37
PPO 2026.03		20.95
DAPO 2026.03		19.75
REINFORCE 2026.03		19.48
GSPO 2026.03		18.38
LCO-KLD 2026.03		16.71
ϕDPO 2026.03		16.54
ϕDPO 2026.03		16.17
LCO-LCH 2026.03		15.38
π* 2026.03		15.18
LCO-MSE 2026.03		15.12
GRPO 2026.03		14.89
GSPO 2026.03		14.87
π* 2026.03		14.39
PPO 2026.03		13.97
DAPO 2026.03		13.23
SFT 2026.03		12.53
REINFORCE 2026.03		12.35
SFT 2026.03		10.29