FactScore

Benchmarks

Task Name	Dataset Name	SOTA Result
Long-form Factuality	FActScore	FActScore59.3	32
Factuality Evaluation	FActScore	Pairwise Score84.5	24
Honesty Evaluation	FActScore v1.0	Score47.3	20
Long-form text generation	FactScore	FactScore68.1	20
Claim-level Uncertainty Quantification	FactScore English (test)	ROC-AUC71	20
Fact-checking of atomic claims	FactScore English	PR-AUC0.34	20
Knowledge Graph Factuality Evaluation	FActScore	FActScore84	16
Long-form Factuality Verification	FactScore	Precision@165.41	15
Factual Text Generation	FactScore	AURC0.7345	14
long-form generation	FActScore (test)	AUROC0.8581	12
Factuality Generation	FActScore (test)	Number of Facts20.4	12
Factuality Evaluation	FactScore (unlabeled)	US (%)76.4	10
Factuality Evaluation	FactScore (labeled)	LS Score (%)64.8	10
Factuality and Hallucination Detection	FactScore	FactScore96.1	9
Long-form Factuality Calibration	FactScore	ECE0.076	8
Consistency Assessment of Generated Reference Points	FactScore LLM-based evaluation	Score86.36	6
Long-form generation	FactScore 200-word response length constraint	Response Coverage (%)98.9	5
Knowledge Graph Factuality Evaluation	FActScore Context and General truth	FActScore80.2	2
Knowledge Graph Factuality Evaluation	FActScore* Context only	FActScore76.9	2

Showing 19 of 19 rows