Share your thoughts, 1 month free Claude Pro on usSee more

Binary Fact-checking on MediaSum

85.4Macro-F1

Claude-3.7-Sonnet

Updated 5mo ago

Evaluation Results

Method	Links
Claude-3.7-Sonnet 2026.01		85.4
o3 2026.01		82.9
InFi-Checker-Qwen 2026.01		80.4
GPT-5 2026.01		80.2
FactCG 2026.01		79.1
Qwen3-8B 2026.01		77.7
GPT-4.1 2026.01		75.9
AlignScore-large 2026.01		75.8
MiniCheck 2026.01		74.3
InFi-Checker-Llama 2026.01		73.5
GPT-4o 2026.01		71.5
ClearCheck (COT) 2026.01		67.8
DeepSeek-V3.2-NoThink 2026.01		65.5
Llama-3.1-8B-Instruct 2026.01		50.8