Share your thoughts, 1 month free Claude Pro on usSee more

Reward Modeling on RewardBench OOD Evaluation

99.4Chat

FsfairX-Llama3-RM-v0.1

Updated 5mo ago

Evaluation Results

Method	Links
FsfairX-Llama3-RM-v0.1 2025.05		99.4	65.1	87.8	86.4	84.7
Mutual-Taught 2025.05		98.3	63.9	85.1	95.8	85.8
Mutual-Taught 2025.05		98.2	66.3	87.8	95.7	87
GPT-4o-2024-08-06 2025.05		96.1	76.1	88.1	86.6	86.7