Share your thoughts, 1 month free Claude Pro on usSee more

held-out

Benchmarks

Task Name	Dataset Name	SOTA Result
Diagnosis Prediction	Held-out (test)	Median AUROC0.932	66
Sycophancy Mitigation	Held-out	BRR43.6	40
Multi-path Speculative Decoding	Held-out (test)	Average Block Efficiency6.84	24
Tissue Box	held-out N=50 randomized configurations (test)	Hand RMS Jerk0.122	22
Toy Rearrangement	held-out N=50 randomized configurations (test)	Hand RMS Jerk2.94	22
Peach Preparation	held-out N=50 randomized configurations (test)	Hand RMS Jerk4.086	22
Apple Preparation	held-out N=50 randomized configurations (test)	Hand RMS Jerk8.725	22
Bargaining	Held-Out (test)	Reward0.7664	16
Query routing and tool-calling accuracy evaluation	Held-out 12,282 examples (test)	Accuracy89.39	15
Adversarial Attack Detection	Held-out n = 560 (20% stratified test)	Detection Rate89.1	11
Steak Season.	Held-out (test)	RMS Jerk2.132	11
Response Quality Evaluation	Held-out n=300 (test)	Pearson Correlation Coefficient0.747	8
Win probability forecasting	Held-out 2024 n=5185 (held-out)	Brier Score0.1355	7
Inverse Kinematics	Held-out (test)	Mean Error (mm)0	7
SUVR-to-PET Retrieval	Held-out 153 subjects (test)	Rank-1 Retrieval92.2	6
PET-to-SUVR Retrieval	Held-out 153 subjects (test)	R@177.8	6
SUVR Prediction	Held-out 153 subjects (test)	MAE0.07	6
Tone Mapping	Held-out (test)	PSNR40.59	6
Clinical case generation	Held-out (test)	BLEU-418.98	6
Actuarial projection	Held-out (test)	MAE0.0198	5
Selective Classification	Held-out (test)	Coverage100	5
Pairwise preference ranking	Held-out	ELO Score1,187	5
License Plate Recognition	held-out (test)	Plate Accuracy92.3	5
Event-level market-impact prediction	Held-out 2021-2023 (test)	Non-neutral F135.6	4
Binary-level classification	held-out (test)	Accuracy98.4	4

Showing 25 of 29 rows