DeepResearch

Benchmarks

Task Name	Dataset Name	SOTA Result
Deep Research	DeepResearch Bench	RACE Overall58.03	58
Judge Agreement Accuracy	DeepResearch 1319 queries (test)	Agreement Accuracy74.5	19
Long-form deep research	DeepResearch Bench (test)	Overall Score48.24	13
Question Answering	DeepResearch	HotpotQA Score44.7	12
Deep Research	DeepResearch benchmark	Average Score53.4	8
Multimodal Report Generation	DeepResearch Bench	DLB3.72	7
Multi-hop Question Answering	DeepResearch-9K 29 (test)	P-hat0.45	6
Multi-agent communication	DeepResearch	Token Reduction44.21	2
Open-domain web search trajectory diagnosis	DeepResearch-9K	Omega47.8	1

Showing 9 of 9 rows