Share your thoughts, 1 month free Claude Pro on usSee more

Preference Learning on Toy dataset Noise 10% (test)

93.1Accuracy

SSPO

Updated 4mo ago

Evaluation Results

Method	Links
SSPO 2025.10		93.1
SSPO 2025.10		84
SSPO 2025.10		81.2
DPO 2025.10		78.3
SimPO 2025.10		77
SimPO 2025.10		74.4
DPO 2025.10		74.2
SimPO 2025.10		73.7
DPO 2025.10		69.5
ORPO 2025.10		68.2
ORPO 2025.10		64.6
ORPO 2025.10		59.5