Share your thoughts, 1 month free Claude Pro on usSee more

Long-context evaluation on LB v2 (ALL)

38Accuracy (ALL)

RAG

Updated 4mo ago

Evaluation Results

Method	Links
RAG 2026.01		38
RR+Judge(y) 2026.01		32.6
Base 2026.01		32
RID+Q(y) 2026.01		32
RID+Q(y) 2026.01		32
RID+C(y) 2026.01		31.4
RAO(y) 2026.01		31.2
RR+Judge(y) 2026.01		31.2
RID(y) 2026.01		31
Base 2026.01		30.2
RID(y) 2026.01		30
RAO(y) 2026.01		29.6
RID+C(y) 2026.01		29.6