Share your thoughts, 1 month free Claude Pro on usSee more

Opinion Alignment on smartvote

73.92Mean Accuracy

SFT+GRPO

Updated 4mo ago

Evaluation Results

Method	Links
SFT+GRPO 2026.03		73.92
icl 2026.03		71.41
SFT+GRPO 2026.03		71.27
SFT 2026.03		70.83
SFT+GRPO 2026.03		70.53
GRPO 2026.03		68.44
SFT 2026.03		67.23
GRPO 2026.03		67.04
GRPO 2026.03		66.44
icl 2026.03		66.09
SFT 2026.03		65.18
icl 2026.03		63.91
ORPO 2026.03		59.23
random 2026.03		50
ORPO 2026.03		39.02
majority 2026.03		37.43
ORPO 2026.03		35.93