Multiple

Benchmarks

Task Name	Dataset Name	SOTA Result
Video Understanding	Multiple Aggregate	Average Score69.8	18
Generalist Multi-task Evaluation	Multiple (ImageNet-1K, COCO)	Mean Delta-11.8	13
Bayesian uncertainty-aware quantification	Multiple (test)	AE Rank (T=1)1.9	6
Factuality Detection	Multiple TriviaQA, HotpotQA, CSQA	Average AUROC72.9	4
Code Generation	Multiple	Score78.51	3
Controllable Language Generation	Multiple Distributional Constraint	Ctrl0.95	3
Point-estimation	Multiple Tabular, Text, Image (test)	Metric-	0

Showing 7 of 7 rows