Share your thoughts, 1 month free Claude Pro on usSee more

Step-level Reasoning Verification on StrQA

52.7PR-AUC

Skywork-PRM-1.5B

Updated 3mo ago

Evaluation Results

Method	Links
Skywork-PRM-1.5B 2025.11		52.7
Qwen2.5-Math-7B-PRM800k 2025.11		35.5
ReProbe, Attn+Logit, Qwen3-8B-anno 2025.11		34.7
Qwen2.5-Math-7B 2025.11		33.3
Universal-PRM-Qwen2.5-Math-7B 2025.11		32.1
RLHFlow-PRM-Deepseek-8B 2025.11		31.5
Qwen2.5-Math-PRM-7B 2025.11		31.3
ReProbe, Hidden States, GPT-OSS-anno 2025.11		30.2
Qwen2.5-Math-7B-PRM800K 2025.11		28.2
RLHFlow-PRM-Mistral-8B 2025.11		26.1
MaxProb 2025.11		25.2
Math-Shepherd-PRM-7B 2025.11		24.9
MaxEntropy 2025.11		24.8
Skywork-PRM-1.5B 2025.11		23.7
Perplexity 2025.11		22.8
H4-Qwen2.5-PRM-1.5B-0.2 2025.11		21.2
Universal-PRM-Qwen2.5-Math-7B 2025.11		18.9
Random 2025.11		17.2
H4-Qwen2.5-PRM-1.5B-0.2 2025.11		12.9