BrowseComp+

Benchmarks

Task Name	Dataset Name	SOTA Result
Web Search	BrowseComp-Plus	Pass@353.02	60
Deep research agents / Multi-step reasoning	BrowseComp-Plus OOD	Success Rate (SR)54.6	24
Complex Tasks	BrowseComp+ Complex Tasks 2nd Pass	Accuracy89	16
Long-context reasoning	BrowseComp+ 1K documents	Accuracy94.6	16
Web Browsing and Tool Use	BrowseComp+ original (test)	Performance (%)38.72	15
MAS Test-Time Scaling	BrowseComp+	Accuracy24.5	14
Composing auto-generated skills	BrowseComp+	Skill Step Percentage61.4	9
Web-based QA	BrowseComp+	Accuracy10	8
Complex Task Solving	BrowseComp+ Naive Stream	Accuracy (1st-Q)55	8
Complex Task Solving	BrowseComp+ Compositional Stream	Accuracy (1st-Q)90	8
Subtasks	BrowseComp+ Subtasks 1st Pass	Accuracy97.7	8
Web-browsing Agent Performance	BrowseComp-Plus 1M documents (100-query sample)	Accuracy83	7
Web-browsing Agent Performance	BrowseComp-Plus 100k documents (100-query sample)	Accuracy77	7
Web Browsing Reasoning	BrowseComp+	Avg@8 Accuracy11	7
Scaling Model Validation	BrowseComp-Plus Out-of-sample (val)	MAE0.071	1

Showing 15 of 15 rows