Share your thoughts, 1 month free Claude Pro on usSee more

Policy Evaluation on PolicyBench Level 1 (US)

59.33Accuracy

Deepseek R1

Updated 3mo ago

Evaluation Results

Method	Links
Deepseek R1 2026.04		59.33
Claude 3.5 2026.04		58.76
Claude 3.7 2026.04		58.68
Gemini 2.5 2026.04		57.73
o4-mini 2026.04		54.9
Gemini 2.0 2026.04		53.71
GPT-4o 2026.04		52.69
LLaMA 4 2026.04		52.55
Deepseek V3 2026.04		50.12
Gemma 3-27B 2026.04		49.91
QwQ 32B 2026.04		46.4