SOTA Malicious Goal Attack (Longer Token Generation) on PKU-SafeRLHF (test) and PapersWithCode

50.17RM Length Accuracy

RankPoison

Updated 4mo ago

Evaluation Results