Share your thoughts, 1 month free Claude Pro on usSee more

LLM Evaluation on HealthBench (test)

62.6HealthBench Score (%)

GPT-5

Updated 4mo ago

Evaluation Results

Method	Links
GPT-5 2026.03		62.6	35.4
GPT-5-mini 2026.03		61.7	34.8
DeepSeek-V3.2 2026.03		53	31.8
Gemini 3 Flash 2026.03		52.5	30.4
Grok-4.1-Fast 2026.03		52.5	30.1
Qwen3-30B 2026.03		49.8	34.9
GPT-4.1 2026.03		47	23.9
Claude Sonnet 4.5 2026.03		43.5	22.7
GPT-4.1-mini 2026.03		39.7	19.9
GPT-4.1-nano 2026.03		33.9	18.1
Llama-3.1-70B 2026.03		20.5	13.1