Share your thoughts, 1 month free Claude Pro on usSee more

Reward Modeling on RM-Bench Chat subset Normal

86Accuracy

REWARDAGENT_MINI

Updated 5mo ago

Evaluation Results

Method	Links
REWARDAGENT_MINI 2025.02		86
REWARDAGENT_MINI 2025.02		84.2
DeepSeek-R1 2025.02		83.7
Skywork-Reward-Gemma-2-27B 2025.02		82.7
REWARDAGENT_LLAMA 2025.02		79.3
Skywork-Reward-Llama-3.1-8B-v0.2 2025.02		78
INF-ORM-Llama3.1-70B 2025.02		77.5
ArmoRM-Llama3-8B-v0.1 2025.02		76.7
o3-mini 2025.02		76
REWARDAGENT_LLAMA 2025.02		76
internlm2-20b-reward 2025.02		74.4
internlm2-7b-reward 2025.02		72.6
GPT-4o 2025.02		71.4
GPT-4o mini 2025.02		60.5
DeepSeek-R1-Distill-Llama-8B 2025.02		42.1
Llama3-8B Instruct 2025.02		9.3