Share your thoughts, 1 month free Claude Pro on usSee more

Reward Modeling on JudgeBench Knowledge

74.4Accuracy

DeepSeek-R1

Updated 5mo ago

Evaluation Results

Method	Links
DeepSeek-R1 2025.02		74.4
REWARDAGENT_MINI 2025.02		68.2
o3-mini 2025.02		66.6
GPT-4o 2025.02		64.6
internlm2-20b-reward 2025.02		61.7
REWARDAGENT_MINI 2025.02		60.7
INF-ORM-Llama3.1-70B 2025.02		59.1
Skywork-Reward-Llama-3.1-8B-v0.2 2025.02		57.8
internlm2-7b-reward 2025.02		56.2
Skywork-Reward-Gemma-2-27B 2025.02		55.8
REWARDAGENT_LLAMA 2025.02		55.2
REWARDAGENT_LLAMA 2025.02		52.9
ArmoRM-Llama3-8B-v0.1 2025.02		51.9
GPT-4o mini 2025.02		51.9
DeepSeek-R1-Distill-Llama-8B 2025.02		47.7
Llama3-8B Instruct 2025.02		2.6