Share your thoughts, 1 month free Claude Pro on usSee more

Composite

Benchmarks

Task Name	Dataset Name	SOTA Result
Image Captioning Evaluation	Composite	Kendall-c Tau_c66.2	161
Property Prediction	Composite	RMSE (Yield)139.532	24
Caption-level correlation with human judgment	Composite (test)	Kendall's Tau0.6	21
Correlation with human judgments	Composite (test)	Kendall's Tau-c57.6	18
Image Captioning Evaluation	COMPOSITE (COM) (test)	Kendall's tau-c64.2	17
Correlation with human judgment	Composite 1 (test)	Kendall Tau-c57.3	15
Retrieval-Augmented Question Answering	Composite-9	Correctness94.4	10
Image-Text Alignment Evaluation	Composite 37 (test)	Kendall's Tau-c65	9
Vision-Language Evaluation Metric Sensitivity Analysis	COMPOSITE cultural	Median % Change vs Neutral-1.9	5
Image-Text Evaluator Robustness (Economic Sensitivity)	COMPOSITE	Median % Change vs Neutral-0.6	5
PDE Solving	Composite	Relative L2 Error0.0087	5
Agent & Alignment	Composite IFEval-strict-prompt, BFCL v3, CodeIF-Bench, Nexus FC	IFEval Strict Prompt Score86.9	4
Math	Composite (GSM8K, MATH, OlympiadBench, AIME 2025, HARDMath2, Omni-MATH, GSM-Plus, CMATH)	GSM8K94.62	4
Coding	Composite CRUXEval-O, MBPP, MBPP+, MultiPL-E, HumanEval, HumanEval+, HumanEvalFix, HumanEval-cn, BigCodeBench-Full, LiveCodeBench, Aider, BIRD-SQL, Spider	CRUXEval-O Score76.12	4
Reasoning	Composite (BIG-Bench Hard, BIG-Bench Extra Hard, bbh-zh, MuSR, ZebraLogic, PrOntoQA, PIQA, OCNLI, HellaSwag, KOR-Bench, DROP, SQuAD 2.0)	BBH83.7	4
Knowledge Evaluation	Composite (MMLU, MMLU-Pro, CMMLU, C-EVAL, GAOKAO-Bench, ARC-c, GPQA, SciBench, PHYBench, TriviaQA)	Overall Average Score65.77	4
Autonomous Driving Evaluation	Composite held-out set (Switzerland)	CR95.4	3
Autonomous Driving Evaluation	Composite Small Towns (held-out set)	CR95.6	3
Autonomous Driving Evaluation	Composite Yosemite (held-out set)	CR96.5	3
Autonomous Driving Evaluation	Composite held-out set (Yellowstone)	CR95.3	3
Autonomous Driving Evaluation	Composite (New York City)	Completion Rate (CR)97.3	3
Autonomous Driving Evaluation	Composite Los Angeles (held-out set)	CR96.8	3

Showing 22 of 22 rows