Share your thoughts, 1 month free Claude Pro on usSee more

Agentic Task Completion on Terminal-Bench Hard 2 (30 tasks)

56.7Pass@1

Codex

Updated 2mo ago

Evaluation Results

Method	Links
Codex 2026.04		56.7
TF-GRPO 2026.04		55.6
AHE 2026.04		53.3
NexAU0 2026.04		51.7
ACE 2026.04		48.9
terminus-2 2026.04		40
opencode 2026.04		33.3