Interpretability Evaluation on HarM (test)

7.18Faithfulness

PrismAgent

Updated 2mo ago

Evaluation Results

Method	Links
PrismAgent 2026.05		7.18	8.58	6.44	7.37	9.03
Baseline 2026.05		6.72	7.46	5.83	6.71	8.77