Share your thoughts, 1 month free Claude Pro on usSee more

Step-level reasoning verification on SciQA

44PR-AUC

RLHFlow-PRM-Deepseek-8B

Updated 3mo ago

Evaluation Results

Method	Links
RLHFlow-PRM-Deepseek-8B 2025.11		44
Skywork-PRM-1.5B 2025.11		41.5
Qwen2.5-Math-7B-PRM800K 2025.11		35
ReProbe, Attn+Logit, Qwen3-8B-anno 2025.11		34.7
Qwen2.5-Math-7B-PRM800k 2025.11		32.9
Math-Shepherd-PRM-7B 2025.11		32.7
Qwen2.5-Math-PRM-7B 2025.11		31.5
RLHFlow-PRM-Mistral-8B 2025.11		31.1
Qwen2.5-Math-7B 2025.11		31
Universal-PRM-Qwen2.5-Math-7B 2025.11		30.3
ReProbe, Hidden States, GPT-OSS-anno 2025.11		30.3
Skywork-PRM-1.5B 2025.11		26.5
Universal-PRM-Qwen2.5-Math-7B 2025.11		25.2
H4-Qwen2.5-PRM-1.5B-0.2 2025.11		22.1
MaxProb 2025.11		15.8
Perplexity 2025.11		14.3
MaxEntropy 2025.11		13.5
H4-Qwen2.5-PRM-1.5B-0.2 2025.11		11.6
Random 2025.11		8.6