Share your thoughts, 1 month free Claude Pro on usSee more

Reward Model Evaluation on RewardBench (Accuracy)

93.9Accuracy

SAVE

Updated 1mo ago

Evaluation Results

Method	Links
SAVE 2026.05		93.9
SAVE 2026.05		93.6
SAVE (w/o Curriculum Mechanism) 2026.05		93.6
SAVE (w/o Policy Model Optimization) 2026.05		93.6
SAVE (w/o Curriculum Mechanism) 2026.05		93.6
SAVE (w/o Policy Model Optimization) 2026.05		93.5
HL-BT 2026.05		93.3
HL-BT 2026.05		93.2
Continual Offline Training RM 2026.05		93.1
Skywork-Reward-V2-Llama-3.2-3B 2026.05		93
Mean Reward 2026.05		83.4
Mean Reward 2026.05		83.1