Share your thoughts, 1 month free Claude Pro on usSee more

Reward Model Evaluation on Arena-Hard RU

92.69Best@8 Score

Qwen3-32B-RM

Updated 4mo ago

Evaluation Results

Method	Links
Qwen3-32B-RM 2025.12		92.69	70.48	22.21
Skywork-Reward-V2-Llama-3.1-8B 2025.12		90.49	77.31	13.18
Skywork-Reward-Gemma-2-27B 2025.12		89.05	74.35	14.7
Llama-3.1-Tulu-3-70B-SFT-RM-RB2 2025.12		87.37	78.47	8.9
Llama-3.3-Nemotron-70B-Reward-Multilingual 2025.12		85.93	84.91	1.02