QuestBench

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Interactive Question Answering	QuestBench Math	Accuracy53.9		7
Sensitivity to Logical Boundaries	QuestBench	Logic-Q0.4391		5

Showing 2 of 2 rows