Share your thoughts, 1 month free Claude Pro on usSee more

Failure Diagnosis on TruthfulQA

38Macro Similarity Type

PROBELLM

Updated 5mo ago

Evaluation Results

Method	Links
PROBELLM 2026.02		38	62	77	78	20
PROBELLM 2026.02		29	71	57	63	10
PROBELLM 2026.02		24	76	72	74	19
PROBELLM 2026.02		23	77	47	36	6
PROBELLM 2026.02		23	77	41	29	5
PROBELLM 2026.02		22	78	67	75	16
PROBELLM 2026.02		22	78	60	57	16
PROBELLM 2026.02		21	79	82	81	16