BrowseComp

Benchmarks

Task Name	Dataset Name	SOTA Result
Web Browsing	BrowseComp	Accuracy85.9	68
Deep Research	BrowseComp	Score78.4	68
Agentic Web Browsing	BrowseComp-ZH	Pass@175.9	52
Agentic Web Browsing	BrowseComp	Pass@167.6	47
Deep Research	BrowseComp-ZH (BC-zh) original (test)	Pass@158.1	45
Web research	BrowseComp zh	Accuracy (%)52.9	39
Deep Research	BrowseComp+	Accuracy55.33	38
Open-domain long-horizon evaluation	BrowseComp-Plus (BCP) (test)	Accuracy10.6	35
Deep Search	BrowseComp-ZH	Accuracy66.6	35
Multimodal Search	BrowseComp-VL	Accuracy (BrowseComp-VL)49.1	34
Web Browsing	BrowseComp-zh	Accuracy83.4	34
Deep Research	BrowseComp	Pass@150.9	33
Web Browsing	BrowseComp-Plus	Accuracy83.92	31
Deep Research Task	BrowseComp	Accuracy67.6	29
Multi-hop dynamic question answering	BrowseComp-Plus (test)	Accuracy (%)27.38	28
Deep Search	BrowseComp (test)	Accuracy49.7	27
Agentic	BrowseComp	Score78.4	27
Web Task Reasoning	BrowseComp (test)	Pass@148.7	25
BrowseComp-Plus	BrowseComp-Plus	Accuracy79.33	25
Question Answering	BrowseComp-Plus	Accuracy (Avg)88.33	25
Web-search QA	BrowseComp-VL	Pass@154.9	24
Long-horizon agentic task	BrowseComp-Plus	Performance77.33	24
Long-horizon agentic task	BrowseComp	Performance71.33	24
Deep-search QA	BrowseComp (test)	Pass@151.5	24
Deep Search	Browsecomp	Accuracy52	24

Showing 25 of 120 rows