Share your thoughts, 1 month free Claude Pro on usSee more

Reward Modeling Evaluation on UltraFeedback (test)

-3.12Score

DPO+Filter

Updated 2mo ago

Evaluation Results

Method	Links
DPO+Filter 2025.10		-3.12	67
DPO 2025.10		-3.59	63
DPO+Filter 2025.10		-3.75	64
DPO 2025.10		-4.42	58
Base 2025.10		-5.47	50