OOLONG-REAL

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Long-context reasoning	OOLONG-REAL Average 650 samples	Average Reward0.32		4
Long-context reasoning	OOLONG-REAL 650 samples (55K bucket)	Average Reward45.4		2

Showing 2 of 2 rows