Long-context Question Answering

Benchmarks

Dataset Name	SOTA Method	Metric
LoCoMo	Nous	F1 (Multi Hop)55.32	174	1mo ago
LongMemEval LongConvQA	InfiniPot	SH Score90.3	84	2mo ago
HotpotQA In-Distribution	QwenLong-L1-32B	Accuracy85.2	72	4mo ago
LongBench (test)	LingoEDU	HotpotQA7,011	69	4mo ago
LongBench		HotPotQA Accuracy59.71	59	25d ago
2WikiMultiHopQA (Out-Of-Distribution)	ReMemR1	Accuracy63.9	54	4mo ago
LongBench N=162		F1 Score31.5	45	2mo ago
LoCoMo	Mnemis	Single-Hop LLJ Score97.1	45	2mo ago
DetectiveQA-En	MiA	Accuracy75.5	38	2mo ago
DetectiveQA-Zh	MiA-RAG	Accuracy80	38	2mo ago
NarrativeQA	MiA-RAG	F1 Score53.56	38	4mo ago
En.QA	Logo-PO	SubEM36.75	36	3mo ago
NarrativeQA	LongMab	SubEM22	36	3mo ago
MFQA En	LongReward-PO	SubEM29.33	36	3mo ago
2WikiMQA	LongMab	SubEM79.5	36	3mo ago
LongBench V2		Overall Accuracy56.77	33	2mo ago
FRAMES		Avg@4 Score73.54	22	4mo ago
HotpotQA		Mean Score65.49	21	4mo ago
MuSiQue	LongMab	F1 Score51.02	19	3mo ago
Clip 128K	RECONTEXT	Accuracy52	18	22d ago
InfQA 128K	RECONTEXT	Accuracy25	18	22d ago
NarrQA 128K	RECONTEXT	Accuracy21	18	22d ago
PopQA 128K	RECONTEXT	Accuracy23	18	22d ago
HotpotQA 128K	RECONTEXT	Accuracy25	18	22d ago
TriviaQA 128K	RECONTEXT	Accuracy70	18	22d ago

Showing 25 of 104 rows