PPE

Benchmarks

Task Name	Dataset Name	SOTA Result
Reward Modeling	PPE-Preference	Accuracy79.8	72
Reward Modeling	PPE Correctness	Accuracy71.2	45
Reward Modeling	PPE Correlation	Correlation87.2	40
LLM evaluation human preference	PPE Human Preference track	MSE / PPI0.282	28
Preference Calibration	PPE	Kuiper0.034	24
Correctness Calibration	PPE (Preference Policy Evaluation)	Kuiper0.017	24
Reward Modeling	PPE-P	Accuracy68.3	23
Preference Validation	PPE	Accuracy57.8	20
LLM evaluation correctness	PPE Correctness track	MSE / PPI0.26	20
Reward Modeling	PPE Pref	Accuracy67.7	15
Reward Modeling	PPE	Accuracy76.4	13
Reward Modeling	PPE Human	Accuracy64.6	10
PPE Inspection	PPE	Precision96	8
Reward Modeling	PPE	PPE Human Preference76.9	8
Information Extraction	PPE 10-PDF subsample	F1 Score62.69	6
Information Extraction	PPE	Precision52.5	6
Scientific Information Extraction	PPE (full)	Precision53.91	4
Precision Prediction	PPE unseen pipeline configurations	MSE0.0131	3
Accuracy Prediction	PPE unseen pipeline configurations	MSE0.007	3

Showing 19 of 19 rows