Share your thoughts, 1 month free Claude Pro on usSee more

Language Understanding on MMLU (Subject Performance)

71.91Average Accuracy

MASA

Updated 4mo ago

Evaluation Results

Method
MASA 2025.10	71.91	-	55.53	-	74.4	-	-	-	-	-	-	-	-	-	-	-	74.24
LoRA 2025.10	71.71	-	55.3	-	73.79	-	-	-	-	-	-	-	-	-	-	-	74.1
HydraLoRA 2025.10	71.47	-	54.74	-	72.7	-	-	-	-	-	-	-	-	-	-	-	72.03
CAT 2025.10	67	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
CAT* 2025.10	67	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
No Defense 2025.10	64	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
Refusal Training 2025.10	64	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
PAP Trained 2025.10	64	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
LAT 2025.10	63	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
LAT* 2025.10	63	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
WildJailbreak 2025.10	63	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
ASCoT (closed) 2025.10	63	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
ASCoT (open) 2025.10	63	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
CAT 2025.10	62	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
PAP Trained 2025.10	61	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
MASA 2025.10	59.62	-	-	-	-	-	-	-	-	-	-	-	-	50.65	69.81	53.28	68.23
No Defense 2025.10	59	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
LAT 2025.10	59	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
LAT* 2025.10	59	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
ASCoT (closed) 2025.10	59	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
MASA 2025.10	58.99	-	48.33	-	64.71	-	-	-	-	-	-	-	-	-	-	-	59.96
LoRA 2025.10	58.83	-	47.93	-	64.03	-	-	-	-	-	-	-	-	-	-	-	59.9
LoRAr=16 2025.10	58.54	-	-	-	-	-	-	-	-	-	-	-	-	50.46	68.05	52.41	66.59
DoRAr=16 2025.10	58.37	-	-	-	-	-	-	-	-	-	-	-	-	49.92	68.22	52.26	66.46
HydraLoRA 2025.10	58.18	-	47.93	-	63.21	-	-	-	-	-	-	-	-	-	-	-	59.16
No Defense 2025.10	58	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
CAT 2025.10	58	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
LAT 2025.10	58	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
LAT* 2025.10	58	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
Refusal Training 2025.10	58	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
ASCoT (open) 2025.10	58	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
VB-LoRA 2025.10	57.88	-	-	-	-	-	-	-	-	-	-	-	-	49.64	66.72	52.24	66.01
CoLA 2025.10	57.86	-	-	-	-	-	-	-	-	-	-	-	-	48.91	67.47	51.86	66.53
HydraLoRA 2025.10	57.78	-	-	-	-	-	-	-	-	-	-	-	-	49.7	66.79	51.84	66.08
BSLoRA 2025.10	57.74	-	-	-	-	-	-	-	-	-	-	-	-	48.72	67.24	52.14	65.98
LoRAr=8 2025.10	57.61	-	-	-	-	-	-	-	-	-	-	-	-	49.03	66.59	52.01	65.92
CAT* 2025.10	57	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
CAT* 2025.10	57	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
WildJailbreak 2025.10	57	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
Refusal Training 2025.10	56	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
PAP Trained 2025.10	54	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
ASCoT (closed) 2025.10	54	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
ASCoT (open) 2025.10	54	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
WildJailbreak 2025.10	53	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
NRGPT 2025.12	29.3	-	-	30	30.5	-	-	-	35.5	32.1	31.5	29.2	19	-	-	-	-
GPT 2025.12	28	-	-	26.7	31.2	-	-	-	36.8	29.5	26.2	27.3	18	-	-	-	-
RGPT 2025.12	26	-	-	32.1	25.2	-	-	-	28.3	27.1	28	24.1	17	-	-	-	-
P-Tuning 2025.10	24.85	-	-	-	-	-	-	-	-	-	-	-	-	23.91	26.1	24.59	24.94
Prompt Tuning 2025.10	24.26	-	-	-	-	-	-	-	-	-	-	-	-	23.88	24.37	25.08	23.27
LLaMA3-8B 2025.10	23.12	-	-	-	-	-	-	-	-	-	-	-	-	21.82	21.71	24.29	24.04
GPT-4 2024.02	-	76	89.7	66.7	80.7	85	-	-	-	-	-	-	-	-	-	-	-
ChatGPT 2024.02	-	39	73.6	46.4	70.1	79	-	-	-	-	-	-	-	-	-	-	-
Gemini 2024.02	-	35	82.6	54.4	69.3	78	-	-	-	-	-	-	-	-	-	-	-
Claude2.1 2024.02	-	47	69.4	40.4	60.7	68	-	-	-	-	-	-	-	-	-	-	-
Llama2-7b 2024.02	-	14	57.8	28.1	41.9	58	-	-	-	-	-	-	-	-	-	-	-
Llama2-13b 2024.02	-	31	70	30	43.6	65	-	-	-	-	-	-	-	-	-	-	-
Llama3-8b 2024.02	-	34	76.9	50.9	65.9	74	-	-	-	-	-	-	-	-	-	-	-
Mistral-7b 2024.02	-	34	70.2	36.9	59.5	70	-	-	-	-	-	-	-	-	-	-	-
Mistral-8x7b 2024.02	-	41	74.4	53.5	67.6	74	-	-	-	-	-	-	-	-	-	-	-
Yi-6B 2024.02	-	27	68.6	33.3	65.9	67	-	-	-	-	-	-	-	-	-	-	-
Yi-34B 2024.02	-	33	81.8	52.6	67.6	77	-	-	-	-	-	-	-	-	-	-	-
Medical LLaMA 2026.02	-	-	-	-	39.3	-	49.6	50	-	-	-	-	-	-	-	-	-
Transport and Merge 2026.02	-	-	-	-	39.7	-	50	49	-	-	-	-	-	-	-	-	-
Transport and Merge 2026.02	-	-	-	-	40.5	-	51.1	52	-	-	-	-	-	-	-	-	-
Ori-SFT 2025.06	-	-	-	-	-	-	-	-	-	-	-	-	-	37.5	51.5	41.6	49.7
CoT-RL 2025.06	-	-	-	-	-	-	-	-	-	-	-	-	-	38.5	50.8	41.2	49.1
CoA 2025.06	-	-	-	-	-	-	-	-	-	-	-	-	-	38.5	50.8	41.9	49.3
AbstRaL 2025.06	-	-	-	-	-	-	-	-	-	-	-	-	-	38.8	53.5	42.2	50.7
Ori-SFT 2025.06	-	-	-	-	-	-	-	-	-	-	-	-	-	68.4	82.5	63.2	76.4
CoT-RL 2025.06	-	-	-	-	-	-	-	-	-	-	-	-	-	68.5	81.5	63	74.4
CoA 2025.06	-	-	-	-	-	-	-	-	-	-	-	-	-	68.5	81.7	63.3	75.5
AbstRaL 2025.06	-	-	-	-	-	-	-	-	-	-	-	-	-	68.6	82.7	63.8	76.5