Share your thoughts, 1 month free Claude Pro on usSee more

Instruction Following on Human Instructions

0.22Accuracy

Baseline

Updated 2mo ago

Evaluation Results

Method	Links
Baseline 2026.05		0.22	9.3
Baseline 2026.05		0.192	5.6
AsyncIO 2026.05		0.153	9.3
AsyncIO 2026.05		0.136	14.3
Baseline 2026.05		0.04	-
Baseline 2026.05		0.04	-