Share your thoughts, 1 month free Claude Pro on usSee more

Text-based agent interaction on TextWorld Treasure (test)

81.5Accuracy

Agent-BRACE

Updated 2mo ago

Evaluation Results

Method	Links
Agent-BRACE 2026.05		81.5	32.1
Agent-BRACE 2026.05		81	30
ReAct (RL) 2026.05		74	16.5
PABU 2026.05		73.5	37.2
PABU 2026.05		72.5	34.4
Direct-Action (RL) 2026.05		72.5	28
ReAct 2026.05		69.5	10.3
Direct-Action (RL) 2026.05		67.5	32.6
Base Model 2026.05		65	30.3
MEM1 2026.05		63.5	31.4
ReAct (RL) 2026.05		55	32.7
ReAct 2026.05		37	33.6
MEM1 2026.05		30	47.7
Base Model 2026.05		7.5	93.2