Share your thoughts, 1 month free Claude Pro on usSee more

Policy Question Answering on PolicyBench

64.34Accuracy

Deepseek-R1

Updated 3mo ago

Evaluation Results

Method	Links
Deepseek-R1 2026.04		64.34
Claude-3.7-sonnet 2026.04		64.13
Gemini-2.5-Flash 2026.04		63.82
Claude-3.5-Sonnet 2026.04		63.75
o4-mini 2026.04		62.98
QwQ-32B 2026.04		61.67
Gemini-2.0-Flash 2026.04		60.1
GPT-4o 2026.04		59.47
LLaMA-4 2026.04		59.17
Deepseek-V3 2026.04		59.1
Gemma 3-27B 2026.04		58.21