G-bench

Benchmarks

Task Name	Dataset Name	SOTA Result
Question Answering	G-bench Novel	Accuracy58.9	25
Question Answering	G-bench CS	Accuracy73.9	11
Question Answering	G-bench Medical	Accuracy73.3	11
Evidence Retrieval	G-bench Medical	Recall93.8	10
Evidence Retrieval	G-bench Novel	Recall87.7	10
Graph Reasoning	G-bench CS	Inference Time (s)0.2	9
Creative Gen	G-Bench Medical (val)	Recall89.86	8
Contextual	G-Bench Medical (val)	Recall89.57	8
Complex Reasoning	G-Bench Medical (val)	Recall90.42	8
Fact Retrieval	G-Bench Medical (val)	Recall0.9008	8
Reasoning Explanation Generation	G-bench CS (dev)	Average R60.2	7

Showing 11 of 11 rows