Share your thoughts, 1 month free Claude Pro on usSee more

Software Engineering on SWE-Bench-Verified (50 cases)

72Accuracy

SWE-agent + Claude 3.7 Sonnet w/ Review Heavy

Updated 2mo ago

Evaluation Results

Method	Links
SWE-agent + Claude 3.7 Sonnet w/ Review Heavy 2025.05		72
CodeStory Midwit Agent + swe-search 2025.05		70
Openhands_04_15 2025.05		68
InfantAgent-Next + Claude-3.7-Sonnet 2025.05		66
AgentScope 2025.05		66
CORTEXA 2025.05		62
Amazon Q Developer Agent_2024_12_02 2025.05		54
AutoCodeRover-v2.0 (Claude-3.5-Sonnet-20241022) 2025.05		52
devlo_2024_11_08 2025.05		48
SWE-agent + SWE-agent-LM-32B 2025.05		46
AppMap Navie v2 2025.05		12
Agentless Lite + O3 Mini (20250214) 2025.05		10