Long-context language modeling evaluation

Benchmarks

Dataset Name	SOTA Method	Metric
FDA (test)	GA-S2	Score0.8004	120	5mo ago
RULER Context Length = 8K		Average Accuracy (RULER 8K)89.59	72	3mo ago
RULER		Score (4K)97.36	49	1mo ago
RULER		Single-key Accuracy100	29	1mo ago
HELMET	FullAttention	Average Sparsity0	28	5mo ago
HELMET held-out eval	Qwen 2.5 32B	Accuracy (8K Context)57.61	13	5mo ago
RULER 32K		Average Score (RULER 32K)88.6	12	1mo ago

Showing 7 of 7 rows