Share your thoughts, 1 month free Claude Pro on usSee more

Fact-checking on SCIFact

90.3Balanced Acc

OpenAI o1

Updated 5mo ago

Evaluation Results

Method	Links
OpenAI o1 2025.02		90.3
GraphCheck 2025.02		89.4
DeepSeek-V3 671B 2025.02		89.1
Claude 3.5-Sonnet 2025.02		87.2
GraphCheck 2025.02		86.4
Llama3.3 70B 2025.02		85.7
Qwen2.5 72B 2025.02		85.6
GPT-4 2025.02		83.3
GPT-4o 2025.02		83.2
ACUEval 2025.02		79.9
MiniCheck 2025.02		78.1
AlignScore 2025.02		71.7
GraphEval 2025.02		68.4
Llama3 8B 2025.02		62.2
Qwen2.5 7B 2025.02		53.5