Share your thoughts, 1 month free Claude Pro on usSee more

Agentic Coding on SWE-bench Verified

87.6Percentage Resolved

Claude Opus-4.7

Updated 1mo ago

Evaluation Results

Method	Links
Claude Opus-4.7 2026.06		87.6
Claude-Opus-4.6 2026.05		80.8
Gemini-3.1-Pro 2026.05		80.6
DS-V4-Pro 2026.06		80.6
OpenAI GPT-5.4 2026.06		80.6
Gemini 3.1-Pro 2026.06		80.6
Kimi-K2.6 2026.06		80.2
OpenAI-GPT-5.2-Thinking 2026.05		80
Claude-Sonnet-4.5 2025.12		77.2
GPT-5 2025.12		74.9
Ring-2.6-1T 2026.06		74
Kimi-K2-thinking 2025.12		71.3
DeepSeek-V3.1-Nex-N1 2025.12		70.6
Minimax-M2 2025.12		69.4
GLM-4.6 2025.12		68
DeepSeek-V3.1 2025.12		66
Gemini-2.5-pro 2025.12		59.6
REAP 2025.10		58
EAN 2025.10		57.6
REAP 2025.10		57.6
EAN 2025.10		56.2
Baseline 2025.10		55.4
SWE-World-32B-RL 2026.05		55
Baseline 2025.10		54
REAP 2025.10		54
EAN 2025.10		53.6
EAN 2025.10		53.4
SWE-Lego-Qwen3-32B 2026.05		52.6
REAP 2025.10		52.2
M2A-Agent-8B 2026.05		51.2
Qwen3-32B-Nex-N1 2025.12		50.5
Kimi-Dev-72B 2026.05		48.6
Task Arithmetic 2026.05		47.6
SLERP 2026.05		47.2
Agent-8B 2026.05		44
RAIN-Merging 2026.05		43.2
SWE-Lego-Qwen3-8B 2026.05		42.2
DeepSWE-32B-Preview 2026.05		42.2
Multi-Task-8B 2026.05		41.1
Klear-Agent-8B-RL 2026.05		40.4
TIES-Merging 2026.05		39
Frequency 2025.10		37.8
SERA-8B 2026.05		37.1
CONTEXTRL 2026.06		30.2
Qwen3-30B-A3B-Nex-N1 2025.12		29.7
Qwen3-Coder-30B 2026.06		28.8
RL baseline 2026.06		28
Base model 2026.06		26.6
SWE-AGILE 2026.05		24.1
SWE-Dev-7B 2026.05		23.4
SWE-Mirror-LM-7B 2026.05		22.8
DARE 2026.05		22
InternLM3-8B-Nex-N1 2025.12		20.3
ALIVE-Oracle 2026.02		17.6
ALIVE-Self 2026.02		17.2
SWE-agent-LM-7B 2026.05		15.2
GRPO (Scalar Reward) 2026.02		14.8
FCP (Verbal Only) 2026.02		14
SFT 2026.02		13.6
Qwen3-32B 2025.12		12.9
Base Model 2026.02		11.8
Qwen3-30B-A3B 2025.12		9.6
Qwen3-14B 2026.06		8.4
Qwen3-32B 2026.06		8.4
CONTEXTRL 2026.06		7
RL baseline 2026.06		6.2
Base model 2026.06		5
Reasoning-8B 2026.05		0.2
Frequency 2025.10		0
Frequency 2025.10		0
Frequency 2025.10		0