Share your thoughts, 1 month free Claude Pro on usSee more

Multi-task Language Understanding on MMLU-Redux (unseen categories)

72Accuracy

AFlow

Updated 5mo ago

Evaluation Results

Method	Links
AFlow 2026.02		72
GDesigner 2026.02		72
HieraMAS 2026.02		72
SC+CoT 2026.02		68
AFlow 2026.02		68
GDesigner 2026.02		68
MASRouter 2026.02		68
HieraMAS 2026.02		68
SC+CoT 2026.02		64
MASRouter 2026.02		56