Share your thoughts, 1 month free Claude Pro on usSee more

Reward Modeling on HHH-Alignment (OOD)

79.8Accuracy

GRM w/ sft

Updated 5mo ago

Evaluation Results

Method	Links
GRM w/ sft 2024.06		79.8
GRM w/ dpo-noref 2024.06		79.7
GRM w/ dpo 2024.06		79.2
Classifier + Ensemble 2024.06		76.8
Classifier + margin 2024.06		75
Classifier (baseline) 2024.06		73.4
Classifier + label smooth 2024.06		72.1
Classifier (Frozen) 2024.06		66.4