Share your thoughts, 1 month free Claude Pro on usSee more

Multitask Language Understanding on MMLU (MA, MI, Error Rate)

73Mean Accuracy (MA)

PROBELLM

Updated 5mo ago

Evaluation Results

Method	Links
PROBELLM 2026.02		73	27	36
PROBELLM 2026.02		64	36	70
PROBELLM 2026.02		63	37	38
PROBELLM 2026.02		62	38	73
PROBELLM 2026.02		59	41	86
PROBELLM 2026.02		54	46	65
PROBELLM 2026.02		51	49	36
PROBELLM 2026.02		51	49	72
PROBELLM 2026.02		40	60	66
PROBELLM 2026.02		37	63	70
PROBELLM 2026.02		36	64	68
PROBELLM 2026.02		34	66	47