Share your thoughts, 1 month free Claude Pro on usSee more

Policy Evaluation on PolicyBench Overall Average

66.34Accuracy

Deepseek R1

Updated 3mo ago

Evaluation Results

Method	Links
Deepseek R1 2026.04		66.34
Claude 3.7 2026.04		64.13
Gemini 2.5 2026.04		63.82
Claude 3.5 2026.04		63.75
o4-mini 2026.04		62.97
QwQ 32B 2026.04		61.67
Gemini 2.0 2026.04		60.1
GPT-4o 2026.04		59.47
LLaMA 4 2026.04		59.17
Deepseek V3 2026.04		59.1
Gemma 3-27B 2026.04		58.21