DeepResearch Bench

Benchmarks

Task Name	Dataset Name	SOTA Result
Deep Research Report Generation	DeepResearch Bench	Comprehensiveness52.84	89
Deep Research	DeepResearch Bench official 100-task-subset 1.0	RACE Overall0.5076	24
Report-generation	DeepResearch Bench	Overall Score48.27	20
Report Generation	DeepResearch Bench 2025 (test)	Comprehensiveness49.5	16
Deep Research	DeepResearch Bench (test)	Comprehensiveness56.28	14
Deep Research	DeepResearch Bench II	Information Recall57.58	13
Deep Research	DeepResearch Bench 1.0 (test)	Overall Score46.45	12
Open-Ended Deep Research	DeepResearch Bench Open-Ended	Overall Score52.09	11
Open-ended deep research evaluation	DeepResearch Bench 100 PhD-level research tasks	Comprehensiveness54.25	9
Report Synthesis	DeepResearch Bench (DRB)	Score50.6	8
Research Report Generation	DeepResearch Bench RACE framework 1.0 (test)	Overall Score49.71	7
Planning-layer poisoning attack	DeepResearch Bench stratified 10-query subset 1.0	PRISM38.5	6
Clarification Generation	DeepResearch Bench online interactive settings	Intent Precision36.44	6
Defense against planning-layer poisoning	DeepResearch Bench 10-query	PRISM (%)38.5	5
Human Evaluation	DeepResearch Bench 20 reports (sampled)	Readability (Win/Tie Rate)95	5
Clarification Generation	DeepResearch Bench offline (test)	Quality Score2.43	4
Multi-turn Refinement	DeepResearch Bench 100 follow-up instances	Instance Score15.35	3

Showing 17 of 17 rows