Share your thoughts, 1 month free Claude Pro on usSee more

Policy Evaluation on PolicyBench Level 2 (CN)

62.92Accuracy

Deepseek R1

Updated 3mo ago

Evaluation Results

Method	Links
Deepseek R1 2026.04		62.92
Gemini 2.5 2026.04		60.57
Claude 3.7 2026.04		60.47
QwQ 32B 2026.04		59.79
Claude 3.5 2026.04		59.74
LLaMA 4 2026.04		56.56
Gemini 2.0 2026.04		56.39
GPT-4o 2026.04		56.34
o4-mini 2026.04		55.81
Gemma 3-27B 2026.04		55.56
Deepseek V3 2026.04		55.51