Share your thoughts, 1 month free Claude Pro on usSee more

Language Modeling Evaluation on LM Evaluation Harness (Standard Suite)

60.35Accuracy

SEFT

Updated 3mo ago

Evaluation Results

Method	Links
SEFT 2025.05		60.35	-	-	-	-	-	-	-	-	-
LoRA* 2025.05		60.04	-	-	-	-	-	-	-	-	-
SEFT 2025.05		59.63	-	-	-	-	-	-	-	-	-
SEFT 2025.05		58.65	-	-	-	-	-	-	-	-	-
SQFT 2025.05		58.28	-	-	-	-	-	-	-	-	-
LoRA* 2025.05		58.25	-	-	-	-	-	-	-	-	-
SEFT 2025.05		58.17	-	-	-	-	-	-	-	-	-
SQFT 2025.05		57.87	-	-	-	-	-	-	-	-	-
SPP 2025.05		57.81	-	-	-	-	-	-	-	-	-
LoRA* 2025.05		57.71	-	-	-	-	-	-	-	-	-
LoRA* 2025.05		57.35	-	-	-	-	-	-	-	-	-
SQFT 2025.05		56.99	-	-	-	-	-	-	-	-	-
SQFT 2025.05		56.85	-	-	-	-	-	-	-	-	-
SPP 2025.05		56.77	-	-	-	-	-	-	-	-	-
SPP 2025.05		56.55	-	-	-	-	-	-	-	-	-
SPP 2025.05		55.16	-	-	-	-	-	-	-	-	-
GQA (original) 2026.03		-	50.34	80.18	60.15	79.65	48.05	34.8	40.1	72.69	58.24
Palu(SVD) 2026.03		-	26.02	50.97	37.43	64.15	27.89	19.4	26.6	57.54	38.75
Palu(SVD) 2026.03		-	33.45	62.38	45.55	72.34	50.57	23	31.54	61.78	47.58
Palu(SVD) 2026.03		-	44.56	74.96	52.2	76.63	61.08	30.4	45.15	65.42	56.3
CARE ONE-SHOT 2026.03		-	52.73	76.3	73.98	78.73	62.17	40.6	41.53	72.61	62.33
TransMLA + CARE(E) Init 2026.03		-	45.05	69.02	68.98	76.06	51.16	37.6	39.43	68.98	57.04
TransMLA + CARE(E) Init 2026.03		-	52.25	82.33	62.47	80.21	70.31	32.9	45.11	75.13	62.59
TransMLA + CARE(E) Init 2026.03		-	51.75	80.73	64.45	83.23	71.57	34	46.33	74.09	63.27
TransMLA 2026.03		-	43.17	66.12	68.25	74.81	48.89	38.8	37.7	66.46	55.52
TransMLA 2026.03		-	53.04	81.07	58.75	81.04	69.13	32	44.09	71.74	61.36
TransMLA 2026.03		-	53.77	82.34	56.44	80.7	70.23	33.3	45.61	72.47	61.86