Share your thoughts, 1 month free Claude Pro on usSee more

Fact-checking on SummEval

77.3Balanced Accuracy

Claude 3.5-Sonnet

Updated 5mo ago

Evaluation Results

Method	Links
Claude 3.5-Sonnet 2025.02		77.3
GPT-4o 2025.02		76.3
MiniCheck 2025.02		74.8
GraphCheck 2025.02		71
OpenAI o1 2025.02		70.5
GPT-4 2025.02		69.7
GraphEval 2025.02		69.7
DeepSeek-V3 671B 2025.02		68.3
GraphCheck 2025.02		67.3
AlignScore 2025.02		62.2
Qwen2.5 7B 2025.02		58.5
Llama3.3 70B 2025.02		57.6
ACUEval 2025.02		53.7
Qwen2.5 72B 2025.02		53.4
Llama3 8B 2025.02		51.7