Share your thoughts, 1 month free Claude Pro on usSee more

Factuality Evaluation on AggreFact-XSum (OLD)

73.9Balanced Accuracy

MENLI

Updated 4mo ago

Evaluation Results

Method	Links
MENLI 2024.03		73.9
FENICEGPT_claims 2024.03		69.9
FENICET5_claims 2024.03		67.7
SummaC-Cv 2024.03		67.5
AlignScore 2024.03		63.7
ChatGPT-DA 2024.03		61.5
QAFactEval 2024.03		60.5
ChatGPT-ZS 2024.03		60.1
QuestEval 2024.03		59.7
ChatGPT-Star 2024.03		53.8
SummaC-ZS 2024.03		53.3
TrueTeacher-11B 2024.03		52.8
ChatGPT-CoT 2024.03		50.1
Random Baseline 2024.03		50