Share your thoughts, 1 month free Claude Pro on usSee more

Software Engineering on SWE-Bench (val)

28.8Acc

Claude 3.7 Sonnet

Updated 3mo ago

Evaluation Results

Method	Links
Claude 3.7 Sonnet 2026.02		28.8	77.5
DeepSeek-R1 2026.02		8.8	30
Rubric-Augmented Classifier 2026.02		2.5	20
Claude 3.5 Haiku 2026.02		1.3	2.5
Mistral-7B 2026.02		0	15
Qwen3-4B (No RL) 2026.02		0	0
Baseline Classifier 2026.02		0	2.5