LongFact

Benchmarks

Task Name	Dataset Name	SOTA Result
Uncertainty Quantification	LongFact	PCC-0.017	32
Factuality Hallucination Evaluation	LongFact (test)	Response Score100	30
Factuality Hallucination	LongFact	Facts Score23.5	30
Long-form Question Answering	LongFact FullP (100% polluted)	VeriScore F1@k88.93	26
Long-form Question Answering	LongFact MixP (50% polluted)	VeriScore F1@k90.33	26
Long-form Factuality	LongFact	R@6478.4	18
Long-form Factual Generation	LongFact	Fact Recall (FR) - Science84.2	14
Long-form Retrieval-Augmented Generation	LongFact	Information Density (Sci.)247.3	14
Factual Text Generation	LongFact Objects	AURC0.426	14
Long-form generation factuality and uncertainty estimation	LongFact (test)	Factuality Score91.5	14
Long-form Question Answering	LongFact	VeriScore F175.9	14
Factuality and Hallucination Detection	LongFact Concepts	Overall Score99.7	9
Factuality and Hallucination Detection	LongFact Objects	Factuality Score99.2	9
Long-form factuality evaluation	LongFact	Accuracy90.2	7
Claim-level specificity control	LongFact full	Claims Emitted11,705	6
Factuality Evaluation	LongFact	Precision38.6	6
Long-form Generation	LongFact	Response Rate100	4
Hallucination Detection	LongFact-Aug (test)	AUC0.9404	4
Claim-level specificity control	LongFact pilot	Claims Emitted724	3

Showing 19 of 19 rows