Long-context Understanding

Benchmarks

Dataset Name	SOTA Method	Metric
LongBench V2		Overall Score82.36	185	17d ago
LongBench (test)	Llama3.1-8B	Avg Score58.7	166	1mo ago
LongBench		F1 Score34	143	2mo ago
LongBench	DPO w/ LongReward	Overall Average Score62.1	143	1mo ago
LongBench 1.0 (test)	LaProx	NarrativeQA32.94	108	1mo ago
LongBench (test)	Qwen3-8B	FewShot Performance71.4	94	22d ago
RULER 16k (test)	IndexMem	RULER Score93.5	90	2mo ago
RULER 4k (test)	ExpectedAttention	RULER 4k Score95.7	90	2mo ago
LongBench		HotpotQA57.15	82	3mo ago
RULER		Score96	66	3mo ago
RULER	PyramidInfer	Performance @ 4K Context157	65	3mo ago
LongBench	QUOKA	Accuracy103	60	4mo ago
LongBench	LongCrafter	Average Score63.4	50	17d ago
LongBench	LKV	Average Score46.25	43	2mo ago
LongBench	Llama3.1-8B	Average Score48.37	40	1mo ago
RULER	Gemma 4 26B-A4B	Accuracy97.3	38	18d ago
RULER 32K		Accuracy94.48	38	2mo ago
RULER 64K	RetroInfer	Accuracy92.37	37	2mo ago
LongBench V1		NQA31	36	2mo ago
InfiniteBench v1 (test)	SnapKV	Dialogue20	31	4mo ago
LongBench	LKV	Average Score47.26	30	2mo ago
LongBench English	YaRN	Accuracy19.63	30	4mo ago
MuSiQue	Logo-PO	SubEM51	27	3mo ago
RULER 128K		Accuracy88.3	27	2mo ago
InfiniteBench	SinkRouter	Math Score (F)0.5	25	3mo ago

Showing 25 of 131 rows