Preference evaluation on Anthropic-SafeRLHF benchmark

33.7Win Rate

πbias (rubric-based preference attack)

Updated 4mo ago

Evaluation Results

Method	Links
πbias (rubric-based preference attack) 2026.02		33.7
πbias (rubric-based preference attack) 2026.02		23.9