Share your thoughts, 1 month free Claude Pro on usSee more

HealthBench

Benchmarks

Task Name	Dataset Name	SOTA Result
Medical Reasoning	HealthBench Hard	Accuracy40.74	41
Clinical Question Answering	HealthBench (offline)	Accuracy31.79	38
Deep Research	HealthBench	Score59.5	38
Medical Question Answering	HealthBench Medicine N=5,000 (overall)	Rubric Score26.1	36
Medical Reasoning	HealthBench	Accuracy70.41	36
Health-related dialogue and decision-making	HealthBench Main	Average Score46.38	24
Deep Research	HealthBench ResearchQA DRB Macro Average	Average Score62.8	21
Medical Question Answering	HealthBench Hard	Accuracy39.02	19
Reward Aggregation	HealthBench 500	Score65.7	18
Long-horizon agentic task	Healthbench Hard	Performance28.06	18
Medical and Health Knowledge	HealthBench	Accuracy37.2	17
Health Dialogue	HealthBench	Accuracy44.92	17
Medical Question Answering	HealthBench Overall	Overall Score60.1	16
Medical Question Answering	HealthBench held-out heart-related n=500 seed 42	Accuracy57	15
Health Multimodal Evaluation	HealthBench English (test)	Overall Score32.7	15
Treatment planning	HealthBench treatment-related conversations	Overall Score48.94	15
Medical	HealthBench-500	Score43.6	15
Medical Domain Question Answering	HealthBench In-domain, Seen	Score22.97	14
Long-form research	HealthBench	Overall Score59.5	14
Medical Question Answering	HealthBench Hard 1000	Accuracy86	12
Long-form deep-research answering	HealthBench	Score54	11
Open-ended Medical Consultation	HealthBench Hard	Total Score46.2	11
Clinical Reasoning	HealthBench Professional (525 cases)	Overall Score62.72	11
Medical Knowledge	HealthBench	Pass@192.82	11
LLM Evaluation	HealthBench (test)	HealthBench Score (%)62.6	11

Showing 25 of 58 rows