Share your thoughts, 1 month free Claude Pro on usSee more

Chatbot Evaluation on ArenaHard v2

57.4ArenaHard v2 Score

DeepSeek R1

Updated 2mo ago

Evaluation Results

Method	Links
DeepSeek R1 2025.09		57.4	-	-
Qwen3-32B + RLBFF training 2025.09		55.6	-	-
Claude-3.7-Sonnet (Thinking) 2025.09		54.2	-	-
o3-mini 2025.09		50	-	-
Qwen3-32B + Baseline BT training 2025.09		47.5	-	-
Qwen3-32B 2025.09		44	-	-
Base 2026.01		-	14	13.7
SFT on self-teacher 2026.01		-	11.2	8.9
GRPO 2026.01		-	12	10.8
SDPO 2026.01		-	12.3	11.1