Share your thoughts, 1 month free Claude Pro on usSee more

Reward Model Evaluation on RewardBench (test)

1.65Kuiper

Consistency

Updated 4mo ago

Evaluation Results

Method	Links
Consistency 2025.12		1.65	2.48
Majority 2025.12		1.66	2.82
Verbalized 2025.12		1.98	1.91
Probe 2025.12		6.83	8.79
Verbalized 2025.12		7.42	6.71
Probe 2025.12		14.04	19.17
Majority 2025.12		21.78	19.96
Consistency 2025.12		22.33	20.37