Share your thoughts, 1 month free Claude Pro on usSee more

Reasoning on STB26

64.5Exact Match (EM)

STAR (Claude Sonnet 4.6)

Updated 2mo ago

Evaluation Results

Method	Links
STAR (Claude Sonnet 4.6) 2026.05		64.5
STAR (GPT-OSS-20B) 2026.05		59.2
STAR (Qwen3-8B) 2026.05		55.3
STAR (Claude Haiku 4.5) 2026.05		55
STAR (GLM-4-9B) 2026.05		48.3
GPT-OSS-20B 2026.05		47.2
STAR (Ministral-3-8B) 2026.05		46.2
Claude Haiku 4.5 2026.05		45.6
GLM-4-9B 2026.05		45.6
STAR (Llama-3.1-8B) 2026.05		43.9
Ministral-3-8B 2026.05		42
STAR (Llama-3.2-3B) 2026.05		39.1
Llama-3.1-8B 2026.05		38.6
Qwen3-8B 2026.05		37.5
Llama-3.2-3B 2026.05		32
Claude Sonnet 4.6 2026.05		30.1