Share your thoughts, 1 month free Claude Pro on usSee more

Instruction Following Evaluation on ArenaHard v1

38ArenaHardv1 Score

+RL (Skywork-Reward-V2-Llama-3.1-8B)

Updated 4mo ago

Evaluation Results

Method	Links
+RL (Skywork-Reward-V2-Llama-3.1-8B) 2025.07		38
Instruct (official) 2025.07		37.9
+RL (Skywork-Reward-V2-Qwen3-4B) 2025.07		35
+RL (Skywork-Reward-Gemma-2-27B-v0.2) 2025.07		34.5
+RL (Skywork-Reward-Llama-3-8B-v0.2) 2025.07		29.8
Instruct (official) 2025.07		24.9
+SFT 2025.07		22.1
+RL (Skywork-Reward-V2-Llama-3.1-8B) 2025.07		20.8
+RL (Skywork-Reward-V2-Qwen3-4B) 2025.07		18.8
Base 2025.07		16.2
+RL (Skywork-Reward-Gemma-2-27B-v0.2) 2025.07		14
+SFT 2025.07		12.6
+RL (Skywork-Reward-Llama-3-8B-v0.2) 2025.07		9.7
Base 2025.07		6.8