Share your thoughts, 1 month free Claude Pro on usSee more

LLM Evaluation on Arena-Hard v2

18.2Score

Qwen3-8B + CE-RM-4B

Updated 3mo ago

Evaluation Results

Method	Links
Qwen3-8B + CE-RM-4B 2026.01		18.2	-
Qwen3-8B + CE-RM-4B 2026.01		17.6	-
Qwen3-14B 2026.01		17.1	-
Qwen3-8B + CE-RM-4B 2026.01		16.3	-
Qwen3-8B + CompassJudger1-32B 2026.01		13.6	-
Qwen3-8B + RM w/o unified criteria 2026.01		13.5	-
Qwen3-8B + CompassJudger1-32B 2026.01		13.4	-
Qwen3-8B + RM w/o unified criteria 2026.01		12.9	-
Qwen3-8B 2026.01		9.8	-
STEP3-VL-10B 2026.01		0.5857	-
Qwen3-VL Thinking 2026.01		0.4734	-
MiMo-VL RL-2508 2026.01		0.2859	-
InternVL 3.5 2026.01		0.1557	-
GLM-4.6V Flash 2026.01		0.0926	-