SOTA Pair-wise comparison on RewardBench and PapersWithCode

93.7Accuracy

CCE@16

Updated 3mo ago

Evaluation Results

Method	Links
CCE@16 2025.02		93.7
LMUNIT LLaMA3.1-70B-Decomposed-Weighted 2024.12		93.45
SFR-LLaMA-3.1-70B-Judge 2024.12		92.7
CCE@16 2025.02		91.8
CCE@16 2025.02		91.7
LMUNIT LLaMA3.1-70B 2024.12		91.56
CCE-random@16 2025.02		91.2
CCE@16 2025.02		90.8
LMUNIT LLaMA3.1-70B-Decomposed 2024.12		90.54
Skywork-Critic-Llama-3.1-8B 2024.12		89
EvalPlan 2025.02		88.7
SFR-LLaMA-3.1-8B-Judge 2024.12		88.7
Agg@16 2025.02		88.1
Maj@16 2025.02		87.9
Vanilla 2025.02		87.4
16-Criteria 2025.02		87.3
LongPrompt 2025.02		86.9
Vanilla 2025.02		86.4
Vanilla 2025.02		85.2
Vanilla 2025.02		85.2
GPT-4o 2024.12		84.6
Claude-3.5 Sonnet 2024.12		84.23
Llama-3-OffsetBias-8B 2024.12		84
LMUNIT LLaMA3.1-8B 2024.12		83.23
CCE@16 2025.02		80.4
Vanilla 2025.02		78.2
Prometheus-2-8x7B 2024.12		74.5
Prometheus-2-7B 2024.12		72
Prometheus-2-BGB-8x7B 2024.12		68.3