Share your thoughts, 1 month free Claude Pro on usSee more

Text-based agent interaction on TextWorld Cooking (test)

75.5Accuracy

Direct-Action (RL)

Updated 2mo ago

Evaluation Results

Method	Links
Direct-Action (RL) 2026.05		75.5	31.9
Base Model 2026.05		69.5	34.1
Agent-BRACE 2026.05		69	44.6
Agent-BRACE 2026.05		58.5	60.3
MEM1 2026.05		52.5	48
Direct-Action (RL) 2026.05		51.5	46.1
ReAct (RL) 2026.05		34.5	44.4
PABU 2026.05		33	73.1
PABU 2026.05		32.5	75.6
ReAct 2026.05		27.5	38.4
ReAct 2026.05		13.5	24.4
ReAct (RL) 2026.05		13	40.6
MEM1 2026.05		10	10
Base Model 2026.05		2.5	98.1