Share your thoughts, 1 month free Claude Pro on usSee more

Reward Modeling Accuracy on RewardBench

97.8Accuracy

Skywork-Reward-V2-Llama-3.1-8B-40M

Updated 3mo ago

Evaluation Results

Method	Links
Skywork-Reward-V2-Llama-3.1-8B-40M 2025.07		97.8
Skywork-Reward-V2-Llama-3.1-8B 2025.07		96.4
INF-ORM-Llama3.1-70B 2026.02		95.1
INF-ORM-Llama3.1-70B 2026.02		95.1
INF-ORM-Llama3.1-70B 2025.07		95.1
INF-ORM-Llama3.1-70B 2025.05		95.1
INF-ORM-Llama3.1-70B 2026.03		95.1
LDL-Reward-Gemma-2-27B-v0.1 2026.02		95
LDL-Reward-Gemma-2-27B-v0.1 2025.07		95
QRM-Gemma-2-27B 2025.07		94.4
Skywork-Reward-Gemma-2-27B-v0.2 2026.02		94.3
Skywork-Reward-Gemma-2-27B-v0.2 2026.02		94.3
Skywork-Reward-Gemma-2-27B-v0.2 2025.07		94.3
Llama-3.1-Nemotron-70B 2026.02		93.9
Llama-3.1-Nemotron-70B 2026.02		93.9
Llama-3.1-Nemotron-70B 2025.07		93.9
EvalPlanner 2025.07		93.9
Skywork-Reward-Gemma-2-27B 2026.02		93.8
Skywork-Reward-Gemma-2-27B 2025.07		93.8
EvalPlanner 2025.07		93.8
Skywork-Reward-Gemma-2-27B 2025.05		93.8
Skywork-Reward-V2-Qwen3-8B 2025.07		93.7
Skywork-Reward-V2-Qwen3-4B 2025.07		93.4
J1-Llama-70B 2026.02		93.3
J1-Llama-70B 2025.07		93.3
Skywork-Critic-Llama-3.1-70B 2025.05		93.3
Skywork-Critic-Llama-3.1-70B 2026.03		93.3
Skywork-Reward-Llama-3.1-8B-v0.2 2026.02		93.1
Skywork-Reward-Llama-3.1-8B-v0.2 2026.02		93.1
QRM-Llama3.1-8B-v2 2025.07		93.1
QRM-Llama3.1-8B 2025.07		93.1
Skywork-Reward-Llama-3.1-8B-v0.2 2025.07		93.1
Skywork-Reward-V2-Llama-3.2-3B 2025.07		93
URM-LLaMa-3.1-8B 2025.07		92.9
RM-R1-Qwen-Instruct-32B 2025.07		92.9
CAMEL-Reflection 2026.02		92.8
CDRRM-14B (SFT) 2026.03		92.8
Skywork-Reward-Llama-3.1-8B 2025.07		92.5
Skywork-Reward-Llama-3.1-8B 2025.05		92.5
Skywork-Reward-Llama-3.1-8B 2026.03		92.5
CDRRM-14B (Base) 2026.03		92.5
CAMEL 2026.02		92.4
Nemotron-4-340B-Reward 2026.02		92
Nemotron-4-340B-Reward 2025.05		92
CDRRM-8B (SFT) 2026.03		92
GRM-Llama3-8B-rewardmodel-ft 2025.07		91.5
RM-R1-QWEN-INSTRUCT-32B 2025.05		91.4
RM-R1-Qwen-Instruct-32B 2026.03		91.4
OPRM-Qwen2.5-32B 2026.02		91.3
BR-RM-Qwen-8B 2026.03		91
RM-R1-DeepSeek-Distill-Qwen-32B 2025.07		90.9
RM-R1-DEEPSEEK-DISTILLED-QWEN-32B 2025.05		90.9
CAMEL-Fast 2026.02		90.5
ArmoRM-Llama3-8B-v0.1 2026.02		90.4
ArmoRM-8B-v0.1 2026.02		90.4
ArmoRM-Llama3-8B-v0.1 2026.02		90.4
ArmoRM-Llama3-8B-v0.1 2025.07		90.4
DeepSeek-GRM-27B 2025.07		90.4
ArmoRM-Llama3-8B-v0.1 2025.05		90.4
ArmoRM-Llama3-8B-v0.1 2026.03		90.4
CDRRM-8B (Base) 2026.03		90.4
Skywork-Reward-V2-Qwen3-1.7B 2025.07		90.3
Internlm2-20b-reward 2026.02		90.2
InternLM2-20B-Reward 2026.02		90.2
Internlm2-20b-reward 2026.02		90.2
Internlm2-20b-reward 2025.07		90.2
Internlm2-20b-reward 2025.05		90.2
Self-taught-evaluator-llama3.1-70B 2025.05		90.2
InternLM2-20B-Reward 2026.03		90.2
Skywork-Reward-V2-Llama-3.2-1B 2025.07		89.9
OPRM-Qwen2.5-14B 2026.02		89.3
OPRM-Qwen2.5-72B 2026.02		89.3
OPRM-RgFT-Qwen2.5-72B 2026.02		89.1
Llama-3-OffsetBias-RM-8B 2026.02		89
Llama-3-OffsetBias-RM-8B 2026.02		89
RM-R1-Qwen-Instruct-32B 2026.02		89
Llama-3-OffsetBias-RM-8B 2025.07		89
OPRM-RgFT-Qwen2.5-32B 2026.02		88.9
RM-R1-DEEPSEEK-DISTILLED-QWEN-14B 2025.05		88.9
SteerLM-RM-70B 2025.05		88.8
SteerLM-RM-70B 2026.03		88.8
R3-Qwen3-8B 2026.03		88.8
GRM-gemma2-2B-rewardmodel-ft 2025.07		88.5
DeepSeek-GRM-27B 2025.07		88.5
DeepSeek-GRM-27B 2026.04		88.5
Gemini-1.5-pro 2025.05		88.2
RM-R1-QWEN-INSTRUCT-14B 2025.05		88.2
OPRM-Qwen2.5-7B 2026.02		87.8
Internlm2-7b-reward 2025.07		87.6
Internlm2-7b-reward 2025.05		87.6
OPRM-RgFT-Qwen2.5-14B 2026.02		87.3
DeepSeek-PairRM-27B 2026.02		87.1
RM-R1-Qwen-Instruct-14B 2026.02		87.1
DeepSeek-PairRM-27B 2025.05		87.1
DeepSeek-GRM-27B 2026.02		86.9
Gemini-1.5-Pro 2026.02		86.8
GPT-4o 2026.02		86.7
GPT-4o 2026.02		86.7
GPT-4o 2025.07		86.7
GPT-4o-0806 2025.05		86.7

Showing 100 of 166 rows