Share your thoughts, 1 month free Claude Pro on usSee more

Preference Learning on Toy dataset Noise 30% (test)

0.739Accuracy

SSPO

Updated 4mo ago

Evaluation Results

Method	Links
SSPO 2025.10		0.739
SSPO 2025.10		0.733
SSPO 2025.10		0.698
DPO 2025.10		0.682
DPO 2025.10		0.673
SimPO 2025.10		0.668
DPO 2025.10		0.665
SimPO 2025.10		0.665
ORPO 2025.10		0.627
ORPO 2025.10		0.617
ORPO 2025.10		0.601
SimPO 2025.10		0.601