SOTA Deep Research on HealthBench and PapersWithCode

59.5Score

GPT-5 + Search

Updated 1mo ago

Evaluation Results

Method	Links
GPT-5 + Search 2025.11		59.5
GPT-5 + Search 2026.06		59.5
HOTE-8B 2026.06		54.4
OpenAI Deep Research 2025.11		53.8
OpenAI Deep Research 2026.06		53.8
DR Tulu-8B (RL) 2025.11		52.8
Dr. Zero-8B 2026.06		52.1
GSPO 2026.06		51
REINFORCE++ 2026.06		50.8
DR Tulu-8B-RL 2026.06		50.2
SPICE-8B 2026.06		50.2
GRPO 2026.06		49.6
Tongyi DeepResearch-30B-A3B 2025.11		46.2
Tongyi DeepResearch-30B-A3B 2026.06		46.2
WebThinker-32B-DPO (report) 2025.11		39.4
WebThinker-32B-DPO (report) 2026.06		39.4
DR Tulu-8B (SFT) 2025.11		38.1
DR Tulu-8B-SFT 2026.06		38.1
Gemini 3 Pro + Search 2025.11		38
Gemini 3 Pro + Search 2026.06		38
WebThinker QwQ-32B (report) 2025.11		36.5
WebThinker QwQ-32B (report) 2026.06		36.5
WebExplorer-8B 2025.11		33.7
WebExplorer-8B 2026.06		33.7
Ai2 ScholarQA - Claude Sonnet 2025.11		32
Ai2 ScholarQA-Claude Sonnet (report) 2026.06		32
GPT-5 + Our Search 2025.11		31.1
QwQ-32B 2025.11		24.5
Qwen3-235B-A22B 2026.06		21.3
Qwen3-8B 2025.11		16.5
WebThinker-32B-DPO 2025.11		11.1
WebThinker-32B-DPO 2026.06		11.1
Qwen3-8B + Our Search 2025.11		5.9
Qwen3-8B 2026.06		5.9
Search-R1-7B 2025.11		-0.1
Search-R1-7B 2026.06		-0.1
ASearcher-Web-7B 2025.11		-13
ASearcher-Web-7B 2026.06		-13