CL-Bench

Benchmarks

Task Name	Dataset Name	SOTA Result
Task-solving	CL-bench (test)	Overall Score (%)25.8	16
Long Context Performance	CL-Bench	Score25.2	9
Context Learning	CL-Bench	Score25.2	8
Knowledge-based Reasoning	Filtered CL-Bench (test)	Accuracy (DK)34.96	8
Long-context benchmark evaluation	CL-Bench (unfiltered)	DK Score6.49	8
Context Learning	CL-Bench (test)	Overall Score12.85	8
Agentic Long-context Reasoning	CL-bench (test)	Solve Rate26	6
Context Learning Task-Solving	CL-Bench	Overall Score15.8	5
Long Context & Context Learning	CL-Bench	Pass@115.5	3

Showing 9 of 9 rows