Share your thoughts, 1 month free Claude Pro on usSee more

Medical Question Answering on HealthBench Overall

60.1Overall Score

Baichuan-M2-32B

Updated 4mo ago

Evaluation Results

Method	Links
Baichuan-M2-32B 2026.02		60.1
o3 2026.02		59.8
Qwen3-30B-A3B-Instruct + More Query Rubrics 2026.02		59.5
Qwen3-4B-Instruct + More Query Rubrics 2026.02		52.9
Gemini-2.5-Pro 2026.02		52
Qwen3-4B-Instruct + Principle Rubrics 2026.02		51.1
Qwen3-4B-Instruct + Doctor Rubrics 2026.02		51
Qwen3-235B-Instruct 2026.02		50
GPT-4.1 2026.02		47.9
HuatuoGPT-o1-72B 2026.02		47.9
Deepseek-R1 2026.02		47.4
Qwen3-4B-Instruct + Draft Rubrics 2026.02		46.9
Qwen3-30B-A3B-Instruct 2026.02		46.8
Qwen3-32B 2026.02		46.1
Qwen3-4B-Instruct 2026.02		40.6
Claude-3.7-Sonnet 2026.02		34.6