Preference Prediction on RewardBench

92.2Accuracy

Skywork-Critic-Llama3.1-70B

Updated 1mo ago

Evaluation Results

Method	Links
Skywork-Critic-Llama3.1-70B 2026.06		92.2
C2 2026.04		91.8
Reasoning RM + External-Rubric (32B) 2026.04		91.3
Reasoning RM + Self-Rubric 2026.04		90.8
SenseJudge 2026.06		90.55
Reasoning RM 2026.04		89.8
Base Model 2026.04		89.1
Gemini-1.5-pro-0514 2026.06		88.2
Reasoning RM + External-Rubric (32B) 2026.04		84.9
Gpt-4o-2024-05-13 2026.06		84.6
Meta-Llama-3.1-70B-Instruct 2026.06		84
Claude-3-opus-20240229 2026.06		80.1
C2 2026.04		77.2
EvoPref 2026.05		75.5
ORPO 2026.05		75
DPO 2026.05		74.9
SMS-EMOA 2026.05		74.8
EvoPref-Best 2026.05		74.8
MOEA/D 2026.05		74.5
KTO 2026.05		74.1
CMA-ES 2026.05		74
IPO 2026.05		73.8
Reasoning RM 2026.04		73.7
Reasoning RM + Self-Rubric 2026.04		70.8
Base Model 2026.04		67.2