Average across datasets

Benchmarks

Task Name	Dataset Name	SOTA Result
Faithful Calibration	Average across datasets (PQA, SA, SQA, HE, MMLU, SQ, MT, UM, AC, SG)	cMFG*0.85	27
Image Classification	Average across datasets	Base Score89.05	15
Disease diagnosis	Average across datasets	AUC89.11	15
Conformal Image Classification	Average across 11 datasets CLIP ViT-B/16 features (test)	Accuracy85.6	9
Image Classification	Average across 11 datasets (Aircraft, CIFAR10, CIFAR100, CUB200, DTD, Flower102, Food101, HAM10000, ImageNet, Resisc45, UCF101)	Avg ACC87.4	9
Time Series Denoising	Average Across Datasets Scenario 3	RMSE0.0568	8
Time Series Denoising	Average Across Datasets Scenario 2	RMSE0.0801	8
Time Series Denoising	Average Across Datasets Scenario 1	RMSE0.0456	8
Average performance across 10 task types	Average across 13 datasets (test)	Avg. Accuracy75.8	8
Text-image retrieval	Average across datasets	Speedup3.5	5
Depth Completion	Average across datasets Hole	AbsREL1	4

Showing 11 of 11 rows