In-distribution

Benchmarks

Task Name	Dataset Name	SOTA Result
Harmfulness Detection	Full in-distribution (test)	AUROC0.964	63
Error Detection	In-distribution (test)	AUC0.8916	40
Mathematical Reasoning	In-Distribution Avg	Average Score45.6	29
Visual Grounding	In-Distribution (test)	Accuracy99.7	18
Debiasing Effectiveness	In-Distribution (ID)	Mean Effectiveness Score (ID)10.2	16
Agentic Model Routing	In-Distribution n=2,919 (test)	Average Performance (%)57	15
LLM Negotiation	In-distribution (held-out)	Reward0.58	13
Trajectory Prediction	In-distribution (InDist) (test)	ADE0.004	10
Object type prediction	In-Distribution (ID)	Accuracy (ID)100	9
Reasoning step reduction	In-Distribution 5K corpus (test)	Savings Rate47.5	9
Policy Evaluation	In-distribution	r Score98.4	8
Interactive Segmentation	In-distribution	NoC@90 Clicks1.95	6
Point Tracking	In-distribution	Avg Displacement Error57.4	6
Edge-selection fidelity	in-distribution clean (test)	F1 Score53.4	5
Prompt Injection Detection	In-distribution (ID) (test)	Macro F1 Score95.41	5
Text-to-Speech	In-distribution ID (test)	MOS3.87	5
Metasurface inverse design	In-Distribution (test)	SG74	2

Showing 17 of 17 rows