Share your thoughts, 1 month free Claude Pro on usSee more

Step-level Reasoning Verification on GSM8k

93PR-AUC

Qwen2.5-Math-PRM-7B

Updated 3mo ago

Evaluation Results

Method	Links
Qwen2.5-Math-PRM-7B 2025.11		93
Universal-PRM-Qwen2.5-Math-7B 2025.11		90.3
Qwen2.5-Math-7B-PRM800K 2025.11		89.4
Skywork-PRM-1.5B 2025.11		88.6
ReProbe, Hidden States, GPT-OSS-anno 2025.11		53.5
H4-Qwen2.5-PRM-1.5B-0.2 2025.11		46.4
Qwen2.5-Math-7B-PRM800k 2025.11		40.6
Qwen2.5-Math-7B 2025.11		37.7
ReProbe, Attn+Logit, Qwen3-8B-anno 2025.11		34
RLHFlow-PRM-Deepseek-8B 2025.11		26.3
Universal-PRM-Qwen2.5-Math-7B 2025.11		21.3
RLHFlow-PRM-Mistral-8B 2025.11		19.5
Math-Shepherd-PRM-7B 2025.11		18.8
Skywork-PRM-1.5B 2025.11		18.1
MaxProb 2025.11		8.4
MaxEntropy 2025.11		7.9
Perplexity 2025.11		6.6
H4-Qwen2.5-PRM-1.5B-0.2 2025.11		6.1
Random 2025.11		3.8