Long-Context Evaluation Suite

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Long-context language modeling	Long-Context Evaluation Suite MRCR v2, GraphWalks, LongBench v2, RULER, AA-LCR	Average Score78.7		5

Showing 1 of 1 rows