Shared

Benchmarks

Task Name	Dataset Name	SOTA Result
LLM Evaluation	Shared (evaluation)	Tie-aware Accuracy78	10
Multi-judge evaluation	Shared 500-prompt sample	Global Correlation (r)0.87	5
Scientific Discovery Pairwise Preference	Shared 40-task (evaluation)	Win Count40	4
Humanoid Loco-Manipulation Generation	Shared 20-object (test)	Affordance Realism74.7	4
Calibration and Discrimination	Shared pooled aggregation (test)	Brier Score (BS)0.1	4

Showing 5 of 5 rows