Share your thoughts, 1 month free Claude Pro on usSee more

Binary Fact-checking on MeetingBank

87.6Macro-F1

GPT-5

Updated 4mo ago

Evaluation Results

Method	Links
GPT-5 2026.01		87.6
GPT-4.1 2026.01		86.3
Claude-3.7-Sonnet 2026.01		84
o3 2026.01		83.8
DeepSeek-V3.2-NoThink 2026.01		82.9
InFi-Checker-Qwen 2026.01		78.5
MiniCheck 2026.01		77.8
GPT-4o 2026.01		76.9
AlignScore-large 2026.01		76.5
ClearCheck (COT) 2026.01		75.8
Qwen3-8B 2026.01		74.2
FactCG 2026.01		71.9
InFi-Checker-Llama 2026.01		65.8
Llama-3.1-8B-Instruct 2026.01		62.3