Share your thoughts, 1 month free Claude Pro on usSee more

Reward Modeling on MT-Bench OOD (test)

73Score

GRM w/ sft

Updated 5mo ago

Evaluation Results

Method	Links
GRM w/ sft 2024.06		73	-
GRM w/ dpo-noref 2024.06		72.1	-
Classifier + label smooth 2024.06		71.9	-
GRM w/ dpo 2024.06		71.3	-
Classifier + Ensemble 2024.06		71.1	-
Classifier + margin 2024.06		71	-
Classifier (baseline) 2024.06		69.1	-
Classifier (Frozen) 2024.06		68.2	-
Classifier (Frozen) 2024.06		-	69.5
Classifier (baseline) 2024.06		-	71.2
Classifier + margin 2024.06		-	72.6
Classifier + label smooth 2024.06		-	71.2
Classifier + Ensemble 2024.06		-	73.7
GRM w/ dpo 2024.06		-	73.4
GRM w/ dpo-noref 2024.06		-	73
GRM w/ sft 2024.06		-	73.4