LB

Benchmarks

Task Name	Dataset Name	SOTA Result
Domain Reasoning	LB	Accuracy60	23
General Reasoning	LB V2	LB V2 Score27.42	14
General Reasoning	LB V1	LB V1 Score74.98	14
Long-context evaluation	LB v2 (ALL)	Accuracy (ALL)38	13
Multi-hop Question Answering	LB QA v1	Accuracy77.3	12

Showing 5 of 5 rows