Share your thoughts, 1 month free Claude Pro on usSee more

Reward Model Evaluation on RewardBench

0.001P-value

DPO

Updated 2mo ago

Evaluation Results

Method	Links
DPO 2026.05		0.001	0.001	0.78	-
IPO 2026.05		0.001	0.001	0.82	-
KTO 2026.05		0.001	0.001	0.85	-
CMA-ES 2026.05		0.003	0.009	0.72	-
ORPO 2026.05		0.018	0.036	0.67	-
MOEA/D 2026.05		0.024	0.041	0.64	-
SMS-EMOA 2026.05		0.031	0.048	0.62	-