Share your thoughts, 1 month free Claude Pro on usSee more

Reward Modeling on IFBench Normal

80.5Accuracy

REWARDAGENT_MINI

Updated 5mo ago

Evaluation Results

Method	Links
REWARDAGENT_MINI 2025.02		80.5
o3-mini 2025.02		76.3
DeepSeek-R1 2025.02		74.4
INF-ORM-Llama3.1-70B 2025.02		69.2
Skywork-Reward-Llama-3.1-8B-v0.2 2025.02		69.2
REWARDAGENT_LLAMA 2025.02		69.2
REWARDAGENT_MINI 2025.02		69.2
Skywork-Reward-Gemma-2-27B 2025.02		68.4
internlm2-20b-reward 2025.02		68.4
ArmoRM-Llama3-8B-v0.1 2025.02		66.2
GPT-4o 2025.02		66.2
REWARDAGENT_LLAMA 2025.02		63.9
internlm2-7b-reward 2025.02		61.7
GPT-4o mini 2025.02		59.4
DeepSeek-R1-Distill-Llama-8B 2025.02		55.6
Llama3-8B Instruct 2025.02		12.8