Share your thoughts, 1 month free Claude Pro on usSee more

LLM Evaluation on Arena-Hard v0.1

78.3Arena-Hard Score

Qwen3-8B + CE-RM-4B

Updated 4mo ago

Evaluation Results

Method	Links
Qwen3-8B + CE-RM-4B 2026.01		78.3	-
Qwen3-8B + CE-RM-4B 2026.01		77.6	-
Qwen3-14B 2026.01		77.4	-
Qwen3-8B + CE-RM-4B 2026.01		75.7	-
Qwen3-8B + CompassJudger1-32B 2026.01		75	-
Qwen3-8B + CompassJudger1-32B 2026.01		74.7	-
Qwen3-8B + RM w/o unified criteria 2026.01		72.1	-
Qwen3-8B + RM w/o unified criteria 2026.01		71	-
Qwen3-8B 2026.01		66.5	-