Fact Checking

Benchmarks

Dataset Name	SOTA Method	Metric
TableBench (test)	Qwen3-4B	Accuracy85.42	136	2mo ago
RealHitBench	DeepSeek-R1	Exact Match70.91	94	3mo ago
LIAR	DisambiguSLM	Accuracy@169	33	2mo ago
COVID-Fact	OpenAI o1	Balanced Acc75.9	32	2mo ago
LIAR		Accuracy79	28	26d ago
PubHealth	KG-CRAFTL3.3	Balanced Accuracy78.66	26	4mo ago
ExpertQA	ANCHOR	Balanced Accuracy61.1	25	2mo ago
HealthVer	iPOE-llm	F1-macro68	21	2mo ago
LIAR-RAW	KG-CRAFT	Precision77.38	20	4mo ago
FEVEROUS (test)	Trification	Macro F174.72	20	4mo ago
InFi-Check-FG 1.0 (test)	Llama-3.1-8B-Instruct	PredE18.82	18	4mo ago
AdvFact	ToE	Accuracy64	16	26d ago
CheckCOVID	ToE	Accuracy60	16	26d ago
PolitiFact	ToE	Accuracy72	16	26d ago
FeLMWk	PCC	F1 (True)0.79	16	4mo ago
HOVER 4-hop (test)	Trification	Macro F166.23	16	4mo ago
HOVER 3-hop (test)	Trification	Macro F166.42	16	4mo ago
HOVER 2-hop (test)	Trification	Macro F175.13	16	4mo ago
Average across General and Medical Domains		Overall Average73.6	15	4mo ago
SCIFact	OpenAI o1	Balanced Acc90.3	15	4mo ago
SummEval		Balanced Accuracy77.3	15	4mo ago
AggreFact CNN	GraphEval	Balanced Acc69.5	15	4mo ago
AggreFact Xsum	GPT-4o	Balanced Accuracy76.4	15	4mo ago
Causal and Downstream Robustness Ablation Suite Averaged over 4 models	HETA	Fact EMΔ3.7	14	3mo ago
FEVEROUS		F1 Macro89.4	14	4mo ago

Showing 25 of 53 rows