Share your thoughts, 1 month free Claude Pro on usSee more

Policy Question Answering on PolicyBench US

66.43Accuracy

Deepseek-R1

Updated 3mo ago

Evaluation Results

Method	Links
Deepseek-R1 2026.04		66.43
o4-mini 2026.04		65.54
Claude-3.5-Sonnet 2026.04		65.39
Claude-3.7-sonnet 2026.04		65.06
Gemini-2.5-Flash 2026.04		64.03
GPT-4o 2026.04		61.41
Gemini-2.0-Flash 2026.04		60.84
Gemma 3-27B 2026.04		60.15
LLaMA-4 2026.04		60.04
Deepseek-V3 2026.04		59.38
QwQ-32B 2026.04		58