Share your thoughts, 1 month free Claude Pro on usSee more

Agentic Coding on Terminal Bench 2.0

59.1Pass@1

Claude Sonnet 4.6

Updated 1mo ago

Evaluation Results

Method	Links
Claude Sonnet 4.6 2026.05		59.1
DeepSeek-V4 Flash 2026.05		56.9
Gemini 3-pro 2026.03		54.2
Qwen3.5 2026.05		52.5
Qwen3.6 2026.05		51.5
GPT-5.4 Nano 2026.05		46.3
LAGUNA M.1 2026.05		45.8
Seed1.8 2026.03		45.2
Gemma 4 2026.05		42.9
Claude Sonnet-4.5 2026.03		42.8
GLM-4.7 2026.05		41
Qwen3.5 2026.05		40.5
LAGUNA XS.2 2026.05		35.7
GPT-5 High 2026.03		35.2
Gemini 2.5-pro 2026.03		32.6
Devstral 2 2026.05		32.6
Claude Haiku 4.5 2026.05		29.8
Devstral Small 2 2026.05		22.5