Share your thoughts, 1 month free Claude Pro on usSee more

Reward Modeling on Unified-Feedback (ID)

73.9Accuracy

GRM w/ dpo-noref

Updated 5mo ago

Evaluation Results

Method	Links
GRM w/ dpo-noref 2024.06		73.9
GRM w/ dpo 2024.06		73.8
GRM w/ sft 2024.06		73.2
Classifier + Ensemble 2024.06		72.8
Classifier (baseline) 2024.06		72.1
Classifier + margin 2024.06		72
Classifier + label smooth 2024.06		71.5
Classifier (Frozen) 2024.06		63.8