Share your thoughts, 1 month free Claude Pro on usSee more

Long-context reasoning on BrowseComp+ 1K documents

94.6Accuracy

SRLM (no sub-calls)

Updated 4mo ago

Evaluation Results

Method	Links
SRLM (no sub-calls) 2026.03		94.6
SRLM 2026.03		92.4
RLM (no sub-calls) 2026.03		89.7
RLM 2026.03		86
Summary agent 2026.03		70.5
SRLM 2026.03		59.7
CodeAct (+ BM25) 2026.03		51
SRLM (no sub-calls) 2026.03		50.1
Summary agent 2026.03		38
RLM 2026.03		37.1
RLM (no sub-calls) 2026.03		36.3
CodeAct (+ BM25) 2026.03		12.7
Base Model 2026.03		0
CodeAct (+ sub-calls) 2026.03		0
Base Model 2026.03		0
CodeAct (+ sub-calls) 2026.03		0