Share your thoughts, 1 month free Claude Pro on usSee more

Correctness Evaluation on PPE Correctness (test)

87.2Score

Skywork-Reward-V2-Llama-3.1-8B-40M

Updated 4mo ago

Evaluation Results

Method	Links
Skywork-Reward-V2-Llama-3.1-8B-40M 2025.07		87.2	-	-
Skywork-Reward-V2-Llama-3.1-8B 2025.07		83.4	-	-
Skywork-Reward-V2-Qwen3-8B 2025.07		75.1	-	-
Skywork-Reward-V2-Qwen3-4B 2025.07		74.7	-	-
J1-Llama-70B (Maj@32) 2025.07		73.7	-	-
J1-Llama-70B 2025.07		72.9	-	-
Skywork-Reward-V2-Llama-3.2-3B 2025.07		72.1	-	-
Skywork-Reward-V2-Qwen3-1.7B 2025.07		70.5	-	-
Claude-3.5-Sonnet 2025.07		69.2	-	-
Skywork-Reward-V2-Qwen3-0.6B 2025.07		68.3	-	-
Skywork-Reward-V2-Llama-3.2-1B 2025.07		67.4	-	-
GPT-4o 2025.07		67.1	-	-
INF-ORM-Llama3.1-70B 2025.07		64.4	-	-
Llama-3-OffsetBias-RM-8B 2025.07		64.1	-	-
LDL-Reward-Gemma-2-27B-v0.1 2025.07		63.9	-	-
Llama-3.1-Nemotron-70B 2025.07		63.2	-	-
DeepSeek-GRM-27B (w/ MetaRM) 2025.07		63.2	-	-
Internlm2-20b-reward 2025.07		63	-	-
Skywork-Reward-Llama-3.1-8B-v0.2 2025.07		62.5	-	-
Skywork-Reward-Gemma-2-27B-v0.2 2025.07		61.9	-	-
J1-Llama-8B (Maj@32) 2025.07		61.9	-	-
ArmoRM-Llama3-8B-v0.1 2025.07		60.6	-	-
DeepSeek-GRM-27B 2025.07		60.4	-	-
J1-Llama-8B 2025.07		59.2	-	-
Verbalized 2025.12		-	0.1931	0.1597
Consistency 2025.12		-	0.3212	0.2978
Majority 2025.12		-	0.3197	0.294
Probe 2025.12		-	0.0643	0.0684
Verbalized 2025.12		-	0.1462	0.152
Consistency 2025.12		-	0.0932	0.098
Majority 2025.12		-	0.099	0.1034
Probe 2025.12		-	0.0689	0.1193