Deep Research

Benchmarks

Dataset Name	SOTA Method	Metric
BrowseComp	Kimi-K2.5	Score78.4	68	1mo ago
DeepResearch Bench	DuMate-DeepResearch	RACE Overall58.03	58	23d ago
BrowseComp-ZH (BC-zh) original (test)		Pass@158.1	45	4mo ago
ResearchQA		Score79.2	42	1mo ago
HealthBench		Score59.5	38	1mo ago
BrowseComp+	Qwen3-235B (w/ Pensieve)	Accuracy55.33	38	4mo ago
BrowseComp	OpenAI-o3	Pass@150.9	33	4mo ago
xbench	RE-TRAC-30B-A3B	Accuracy83	30	4mo ago
DeepResearch Bench official 100-task-subset 1.0	OAgents-DR	RACE Overall0.5076	24	4mo ago
GAIA	RE-TRAC-30B-A3B	Accuracy78.2	24	4mo ago
xBench-DS-2505		Score82	22	3mo ago
HealthBench ResearchQA DRB Macro Average		Average Score62.8	21	1mo ago
DeepResearchBench (DRB)		Overall Score50.7	21	1mo ago
BrowseComp-EN (BC-en) original (test)		Pass@149.7	20	4mo ago
GAIA text-only original (test)	WebSailor-v2-30B-A3B (RL)	Pass@174.1	20	4mo ago
SQA v2	DR Tulu-8B (RL)	Score88.3	18	2mo ago
BrowseComp-zh		Accuracy66.6	18	4mo ago
GAIA Text-Only	REDSearcher-30B-A3B	Score80.1	17	3mo ago
KDR-Bench		Average Score50.2	17	3mo ago
BrowseComp-zh		BrowseComp-zh Score81.3	16	4mo ago
GAIA	THINKMERGE	Pass@151.46	16	4mo ago
HLE		Accuracy51	16	4mo ago
xbench-DS	DeepSeek-V3.1	Pass@171	15	4mo ago
BrowseComp-ZH	OpenAI-o3	Pass@158.1	15	4mo ago
GAIA	OpenAI-o3	Pass@170.5	15	4mo ago

Showing 25 of 66 rows