Share your thoughts, 1 month free Claude Pro on usSee more

Massive Multitask Language Understanding on MMLU (Performance Profile)

56.6MMLU

Qwen3-4B + FBS-Full (ours)

Updated 3mo ago

Evaluation Results

Method	Links
Qwen3-4B + FBS-Full (ours) 2026.01		56.6	532	0.7	36
Qwen3-4B + FBS-S1 2026.01		56.4	755	1.03	0
Qwen3-4B-Instruct (Baseline) 2026.01		55.1	760	1	0
Qwen3-4B + EAGLE-2 (Group A) 2026.01		55	555	0.74	30
Qwen3-4B + Lookahead (Group A) 2026.01		55	595	0.82	15
Qwen3-4B + SpecDec (Group A) 2026.01		54.9	646	0.9	22
Qwen3-4B + Medusa (Group A) 2026.01		54.7	570	0.8	18
Base (no adapt.) 2026.04		46.1	-	-	-
SafeAnchor 2026.04		45.7	-	-	-
EWC + LoRA 2026.04		45.3	-	-	-
Safety Interleaving 2026.04		45.2	-	-	-
SafeGrad + LoRA 2026.04		45.1	-	-	-
O-LoRA 2026.04		45	-	-	-
Safe LoRA 2026.04		44.9	-	-	-
Standard LoRA 2026.04		44.8	-	-	-
Vaccine + LoRA 2026.04		44.5	-	-	-