Share your thoughts, 1 month free Claude Pro on usSee more

Reward Modeling on HHH-Alignment OOD (test)

78.7Score

GRM w/ sft

Updated 5mo ago

Evaluation Results

Method	Links
GRM w/ sft 2024.06		78.7
GRM w/ dpo-noref 2024.06		76.6
Classifier + Ensemble 2024.06		72.2
GRM w/ dpo 2024.06		71.6
Classifier (baseline) 2024.06		70.3
Classifier + margin 2024.06		69.8
Classifier + label smooth 2024.06		68.8
Classifier (Frozen) 2024.06		68.6