StoryCloze, OpenQA, ARC

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Multi-task Generalization	StoryCloze, OpenQA, ARC-E, ARC-C combined	Average Accuracy87.76		8

Showing 1 of 1 rows