Share your thoughts, 1 month free Claude Pro on usSee more

Factuality Evaluation on TruthfulQA latest (test)

84.57Accuracy

SkillAggregation-X

Updated 4mo ago

Evaluation Results

Method	Links
SkillAggregation-X 2024.10		84.57
SkillAggregation 2024.10		84.45
DawidSkene 2024.10		84.08
SkillAggregation w/o. Reg. 2024.10		84.04
Crowdlayer 2024.10		83.87
Average Probability 2024.10		83.85
Majority Voting 2024.10		83.63
Train on Majority Voting 2024.10		82.41
SkillAggregation-X 2024.10		68.77
SkillAggregation 2024.10		68.74
SkillAggregation w/o. Reg. 2024.10		68.07
Average Probability 2024.10		68.06
DawidSkene 2024.10		67.84
Crowdlayer 2024.10		67.74
Majority Voting 2024.10		67.47
Train on Majority Voting 2024.10		67.32