All Datasets

Benchmarks

Task Name	Dataset Name	SOTA Result
Retrieval-Augmented Generation	All Datasets Aggregated	Average Performance Score76.6	55
Exponent beta estimation for power-law entropy growth	All datasets	Beta Exponent0.533	24
Binary Classification (Assistive vs Creative)	All Datasets Combined	AUC99	12
Binary Classification (Human vs Creative)	All Datasets Combined	AUC0.99	12
Binary Classification (Human vs Assistive)	All Datasets Combined	AUC98	12
Generalized Category Discovery	All Datasets Avg	Overall Accuracy75.1	12
Reliability Estimation	All Datasets averaged (test)	Alpha0.853	11
Reliability Estimation (Micro Win Rate)	All Datasets averaged	Alpha0.574	11
Temporal Point Process Modeling	All datasets Combined (All)	E0.024	9
Critical transition detection	All datasets	AUROC85.9	9
Ancient inscription restoration	All Datasets Average	SSIM93.14	9
Ancient Inscription Texture Restoration	All Datasets Averages	PSNR37.6393	9
Ancient Inscription Restoration	All Datasets Average	LPIPS0.0764	9
Lesion Segmentation	All Datasets	BBox Score0.777	6
Time Series Synthesis	All datasets (averaged)	Coverage97	5
Misalignment Detection	All datasets 9 5 in-dist + 4 OOD (pooled)	AUROC93	4
Image Generation	All Datasets	Fidelity54	4
Preference Prediction	All Datasets Total	Significant Features Count (S)43	2
Alpha-law validation	All datasets	Clean Accuracy31.3	1

Showing 19 of 19 rows