Share your thoughts, 1 month free Claude Pro on usSee more

Fact-checking on Average across General and Medical Domains

73.6Overall Average

Claude 3.5-Sonnet

Updated 4mo ago

Evaluation Results

Method	Links
Claude 3.5-Sonnet 2025.02		73.6
OpenAI o1 2025.02		72.9
DeepSeek-V3 671B 2025.02		71.7
GraphCheck 2025.02		71.1
GPT-4 2025.02		70.8
GraphCheck 2025.02		70.7
GPT-4o 2025.02		70.1
MiniCheck 2025.02		68.1
Llama3.3 70B 2025.02		65.3
GraphEval 2025.02		65.1
AlignScore 2025.02		63.7
Qwen2.5 72B 2025.02		63.6
ACUEval 2025.02		60.6
Llama3 8B 2025.02		57
Qwen2.5 7B 2025.02		54.7