Search

Benchmarks

Dataset Name	SOTA Method	Metric
BrowseComp (test)	GPT-5-High	Accuracy54.9	19	2mo ago
BrowseComp		Score77.9	19	23d ago
Simulated Search Environment	Modified Triangular-Grid-Based	Search Time (minute)4	18	1mo ago
BrowseComp-ZH (test)		Accuracy68.7	17	2mo ago
MM Search	AXPO	Pass@461	16	1mo ago
HR-MM Search	AXPO	Pass@442	16	1mo ago
MM Search		Pass@146.1	16	1mo ago
HR-MM Search	SFT + AXPO	Pass@125.9	16	1mo ago
BrowseComp-ZH	Seed2.0 Pro	Score82.4	15	23d ago
Amazon	GEMS	Hit Rate @ 583.99	15	4mo ago
Humanity's Last Exam (HLE) (test)		Accuracy45.8	14	2mo ago
HLE text	Seed2.0 Pro	Score54.2	12	23d ago
xbench (test)	OpenSeeker-v2-30B-SFT	Accuracy78	9	2mo ago
XBench	OpenSeeker-v1-Data-11.7k	Score74	9	4mo ago
WebWalker	Qwen3-235B	Score59.5	7	4mo ago
Frames	Qwen3-235B	Score70.5	7	4mo ago
Multi-agent Simulation averaged across 6 impairment dimensions		AURC (% of max)100	5	4mo ago
Multi-agent Communication Environment (test)		Mean Normalized Performance Drop0	5	4mo ago
Large environment	COMRES-VLM	Average Completion Time (timesteps)162.24	3	4mo ago
Medium environment	COMRES-VLM	Average Completion Time (timesteps)104.25	3	4mo ago
Small environment	COMRES-VLM	Average Completion Time (timesteps)63.21	3	4mo ago
MAT-Search	Qwen2.5-VL-3B	F1 Score27.1	2	4mo ago

Showing 22 of 22 rows