Share your thoughts, 1 month free Claude Pro on usSee more

Software Issue Resolution on SWE-rebench 60-task Python subset v2

36.11Pass@1

Claude Opus-4.5

Updated 2mo ago

Evaluation Results

Method	Links
Claude Opus-4.5 2026.05		36.11	36.67
GLM-4.7 2026.05		27.22	31.67
MiniMax-M2.1 2026.05		26.11	31.67
Gemini 2026.05		25.56	33.33
DeepSeek-V3.2 2026.05		23.33	31.67
GPT-5.2 2026.05		20.56	23.33
gpt-oss-120b 2026.05		8.89	16.67