Share your thoughts, 1 month free Claude Pro on usSee more

Sequential task management and state maintenance on Lifelong AgentBench

100Accuracy

GA

Updated 1mo ago

Evaluation Results

Method	Links
GA 2026.04		100	222	20	241	4.15
GA 2026.06		100	222	20	241	4.15
BA-Inc 2026.06		100	78	6	84	23.85
GA 2026.06		100	385	34	418	47.82
BA-Full 2026.06		100	405	35	439	45.53
BA-Inc 2026.06		100	0	0	0	-
GA 2026.04		90	400	23	423	2.12
GA 2026.06		90	649	42	690	26.07
BA-Full 2026.06		85	634	40	674	25.23
Claude Code 2026.04		75	800	14	814	0.92
Claude Code 2026.06		75	800	14	814	0.92
OpenClaw 2026.04		70	1.43	21	1.45	0.48
OpenClaw 2026.04		70	1.2	17	1.22	0.57
OpenClaw 2026.06		70	1.43	21	1.45	0.48