Share your thoughts, 1 month free Claude Pro on usSee more

Step-level reasoning verification on Trips

82.5PR-AUC

Qwen2.5-Math-7B-PRM800k

Updated 3mo ago

Evaluation Results

Method	Links
Qwen2.5-Math-7B-PRM800k 2025.11		82.5
Qwen2.5-Math-7B 2025.11		79.1
ReProbe, Attn+Logit, Qwen3-8B-anno 2025.11		75.6
ReProbe, Hidden States, GPT-OSS-anno 2025.11		75.2
Math-Shepherd-PRM-7B 2025.11		74.7
Universal-PRM-Qwen2.5-Math-7B 2025.11		74.1
Universal-PRM-Qwen2.5-Math-7B 2025.11		73.7
Qwen2.5-Math-PRM-7B 2025.11		69.6
MaxProb 2025.11		61.8
MaxEntropy 2025.11		58.5
Qwen2.5-Math-7B-PRM800K 2025.11		57.3
RLHFlow-PRM-Deepseek-8B 2025.11		55.8
Perplexity 2025.11		55.7
Random 2025.11		55.2
H4-Qwen2.5-PRM-1.5B-0.2 2025.11		53.4
H4-Qwen2.5-PRM-1.5B-0.2 2025.11		47
RLHFlow-PRM-Mistral-8B 2025.11		46.2
Skywork-PRM-1.5B 2025.11		42
Skywork-PRM-1.5B 2025.11		40.8