Alignment Evaluation on HH-RLHF (test)

65.4Reward Model Score

SFT + TTL

Updated 2mo ago

Evaluation Results

Method	Links
SFT + TTL 2026.05		65.4	49.8	0.41
Base SFT 2026.05		62.1	45.2	0.48