Share your thoughts, 1 month free Claude Pro on usSee more

Reward Modeling on IFBench Simple

87.2Accuracy

Skywork-Reward-Gemma-2-27B

Updated 5mo ago

Evaluation Results

Method	Links
Skywork-Reward-Gemma-2-27B 2025.02		87.2
GPT-4o 2025.02		85.1
REWARDAGENT_MINI 2025.02		85.1
o3-mini 2025.02		81.9
INF-ORM-Llama3.1-70B 2025.02		78.7
Skywork-Reward-Llama-3.1-8B-v0.2 2025.02		78.7
REWARDAGENT_MINI 2025.02		78.7
internlm2-7b-reward 2025.02		74.5
internlm2-20b-reward 2025.02		74.5
REWARDAGENT_LLAMA 2025.02		74.5
ArmoRM-Llama3-8B-v0.1 2025.02		72.3
DeepSeek-R1 2025.02		72.3
GPT-4o mini 2025.02		70.2
REWARDAGENT_LLAMA 2025.02		70.2
DeepSeek-R1-Distill-Llama-8B 2025.02		53.2
Llama3-8B Instruct 2025.02		12.8