Share your thoughts, 1 month free Claude Pro on usSee more

Language Understanding on LLM Benchmark Suite (MMLU, ARC-C, PIQA, WinoG, GSM8K, HellaSwag, GPQA, RACE) (test)

57.93Overall Accuracy

Base

Updated 3mo ago

Evaluation Results

Method	Links
Base 2026.02		57.93	65.97	43	74.1	69.3	69.29	72.7	30.4	38.7
Sink-Aware 2026.02		57.68	65.33	43.09	74.37	69.53	68.58	71.98	30.12	38.4
Sink-Aware 2026.02		57.62	65.41	43.52	74.97	68.59	68.16	72.3	29.7	38.32
Wanda 2026.02		57.43	65.2	43.94	75.3	68.59	66.03	71.95	29.85	38.55
SparseGPT 2026.02		57.23	65.16	43.09	74.43	67.56	67.17	72.1	30.25	38.1
Sink-Aware 2026.02		53.18	62.16	41.38	73.18	65.27	55.88	67.18	27.95	32.45
Wanda 2026.02		52.7	61.43	39.08	72.63	64.56	57.01	67.52	27.15	32.2
Sink-Aware 2026.02		52.36	60.79	39.59	72.95	65.82	52.11	67.35	27.48	32.82
SparseGPT 2026.02		52.34	60.97	39.68	72.2	64.64	53.53	66.9	27.7	33.1
SparseGPT 2026.02		32.57	28.6	20.99	61.75	50.04	1.52	48.2	23.9	25.55
Sink-Aware 2026.02		32.57	28.93	21.08	60.12	51.07	1.9	48.7	23.55	25.2
Sink-Aware 2026.02		30.94	24.01	18.77	59.96	49.17	1.52	46.85	23.1	24.1
Wanda 2026.02		29.99	24.76	18.52	56.69	47.43	0.99	45.25	22.85	23.45