OOD

Benchmarks

Task Name	Dataset Name	SOTA Result
Out-of-Domain Reasoning Aggregation	OOD Average	Accuracy63.57	22
Speech Emotion Recognition	Four OOD (test)	Macro-F1 Delta1.57	21
Image Classification	OOD 6 tasks (test)	Accuracy83.7	20
Speculative decoding evaluation	OOD Mean	Speedup5.21	20
Out-of-Distribution Detection	OOD datasets	pAUROC@2094.2	17
Unsupervised Object Segmentation	OOD 1.0 (test)	FG-ARI7,824	16
Agentic Model Routing	OOD n=176 (test)	Average Performance (%)75.89	14
LLM Routing	OOD	Accuracy89	11
Abdominal Aortic Aneurysm Segmentation	OOD n = 26 (test)	DSC93.7	10
Uncertainty Estimation	OOD Average across 8 domains	AUROC68.73	10
OOD Detection	OOD	AUC (Confidence)0.822	9
Mathematical and Scientific Reasoning	OOD AIME, HMMT, GPQA, MMLU-Pro, MMLU-Redux 2.0	Pass@189.5	8
Language Modeling	OOD	Loss1.285	7
Model Retrieval	OOD datasets (test)	Average Target Accuracy55.6	6
Text-to-SQL generation	OOD	Overall Match Accuracy40	6
Diffusion-generated time series detection	Avg. OOD Aggregate of TSDiff, Diffusion-TS, WaveStitch (summary)	F1 Score84.8	6
Detoxification	OOD	TP Score54	6
Classification	OOD	Accuracy65.71	6
Speculative Decoding	OOD	Block Efficiency2.13	5
Defective Dialog Detection	OOD Shopping n = 105 (test)	Precision48	5
Unsupervised image annotation	OOD set	NMI0.54	5
Referential Communication	OOD set	Accuracy92.7	5
Response Quality Evaluation	OOD out-of-domain (150 samples)	Count102	4
Safe Robot Navigation	OOD Case II: high obstacle density (30 obstacles)	SR44.2	4
Image Denoising	OOD Average	PSNR39.94	4

Showing 25 of 49 rows