Share your thoughts, 1 month free Claude Pro on usSee more

Long-form research on HealthBench

59.5Overall Score

GPT-5 + Search

Updated 2mo ago

Evaluation Results

Method	Links
GPT-5 + Search 2026.05		59.5
OpenAI Deep Research 2026.05		53.8
DR Tulu-8B (RL, 1900 steps) 2026.05		50.2
RubricEM-8B (RL, 1400 steps) 2026.05		49.3
Gemini 3.1 Pro + Search 2026.05		47.5
Tongyi DeepResearch-30B-A3B 2026.05		46.2
WebThinker-32B-DPO 2026.05		39.4
RubricEM-8B (SFT) 2026.05		39
DR Tulu-8B (SFT) 2026.05		38.1
WebThinker QwQ-32B 2026.05		36.5
WebExplorer-8B 2026.05		33.7
Ai2 ScholarQA – Claude Sonnet 2026.05		32
Qwen3-8B + Our Search 2026.05		24.5
Search-R1-7B 2026.05		-0.1