D2

Benchmarks

Task Name	Dataset Name	SOTA Result
Classification	D2	Mean Accuracy91.611	30
Aspect Sentiment Triplet Extraction	D2 (16Res)	F1 Score74.83	25
Aspect Sentiment Triplet Extraction	D2 15Res	F1 Score66.12	25
Aspect Sentiment Triplet Extraction	D2 14Lap	F1 Score63.61	25
Aspect Sentiment Triplet Extraction	D2 14Res	F1 Score75.59	25
Spatio-temporal signal recovery	D2	MAE0.12	18
Time Series Forecasting	D2 Synthetic (test)	MSE0.599	16
Medical Image Segmentation	D2	DSC87.35	14
PCB Routing	D2 Synthetic Gridless Board	CP100	10
Regression	D2	RMSE0.16	10
Regression	D2	Average Relative MSE0.084	10
Classification	D2 0.15 (test)	Mean Accuracy91.657	10
ICD-10 Code Prediction	D2 noisy (test)	AUPRC (Z37)93.86	10
HDI Tensor Completion	D2	MAE3.5514	9
Outlier Detection	D2 with only clusteriers (test)	AUC0.918	9
Aspect-level sentiment classification	D2	Accuracy72.08	9
Knee cartilage segmentation	D2	Dice94.14	7
Root Cause Localization	D2 complete data conditions	Top-1 Accuracy81.5	7
Failure Triage	D2 complete data conditions	Precision88.2	6
Anomaly Detection	D2 complete data conditions	Precision99.3	6
Time-Domain Prediction	D2	NMSE (dB)-18.58	6
Processing	D2 Operational JSON	Processing Time (s)18.03	5
Processing	D2 (Operational) CSV	Processing Time (s)12.55	5
Expert-grounded reasoning alignment	D2 N=499	GT-HYB81.3	5
Reliability Assessment	D2 (test)	AU-ARC92.1	5

Showing 25 of 37 rows