Share your thoughts, 1 month free Claude Pro on usSee more

Output-based feature description faithfulness on GPT2 MLP SAE

40.9Faithfulness Score

EnsembleR (VP+TC)

Updated 5mo ago

Evaluation Results

Method	Links
EnsembleR (VP+TC) 2025.01		40.9
EnsembleR (MA+TC) 2025.01		40.3
VocabProj 2025.01		38.3
EnsembleR (MA+VP) 2025.01		38.1
EnsembleC (All) 2025.01		37.2
EnsembleR (All) 2025.01		37.1
TokenChange 2025.01		36.5
MaxAct 2025.01		34