Share your thoughts, 1 month free Claude Pro on usSee more

Code Question Answering on LongBench CodeQA v2

0.741Accuracy

SRLM (no sub-calls)

Updated 4mo ago

Evaluation Results

Method	Links
SRLM (no sub-calls) 2026.03		0.741
SRLM 2026.03		0.689
RLM (no sub-calls) 2026.03		0.652
SRLM 2026.03		0.649
RLM 2026.03		0.598
RLM 2026.03		0.595
SRLM (no sub-calls) 2026.03		0.59
Summary agent 2026.03		0.58
RLM (no sub-calls) 2026.03		0.538
Summary agent 2026.03		0.5
CodeAct (+ sub-calls) 2026.03		0.26
CodeAct (+ BM25) 2026.03		0.24
Base Model 2026.03		0.24
CodeAct (+ sub-calls) 2026.03		0.24
CodeAct (+ BM25) 2026.03		0.22
Base Model 2026.03		0.2