Share your thoughts, 1 month free Claude Pro on usSee more

Safety assessment on StrongReject

0.179Personalization Bias (PB)

Identity-Robust Generation

Updated 5mo ago

Evaluation Results

Method	Links
Identity-Robust Generation 2026.01		0.179
Identity-Robust Generation 2026.01		0.201
Prompt Steering 2026.01		0.282
Identity-Robust Generation 2026.01		0.325
Vanilla Generation 2026.01		0.384
Vanilla Generation 2026.01		0.408
Prompt Steering 2026.01		0.444
Vanilla Generation 2026.01		0.831
Prompt Steering 2026.01		1.413