Share your thoughts, 1 month free Claude Pro on usSee more

Cross-task Generalization on Cooking (test)

0.6889Similarity

OOWM 3-Stage

Updated 3mo ago

Evaluation Results

Method	Links
OOWM 3-Stage 2026.02		0.6889	34.47	44.48	38.24
Unstructured Baseline 2026.02		0.6357	20.1	42.19	26.94
OOWM 2-Stage 2026.02		0.6058	41.19	40.59	30.76
Hybrid Strategy 2026.02		0.5705	26.83	42.69	32.13