Share your thoughts, 1 month free Claude Pro on usSee more

Policy Evaluation on PolicyBench Level 3 US

77Accuracy

o4-mini

Updated 3mo ago

Evaluation Results

Method	Links
o4-mini 2026.04		77
Deepseek R1 2026.04		74.6
QwQ 32B 2026.04		69.9
Gemini 2.5 2026.04		69.44
Deepseek V3 2026.04		69.39
Claude 3.5 2026.04		68.47
Gemma 3-27B 2026.04		68.37
Claude 3.7 2026.04		68.28
GPT-4o 2026.04		68.13
Gemini 2.0 2026.04		66.55
LLaMA 4 2026.04		66.41