Share your thoughts, 1 month free Claude Pro on usSee more

Large Language Model Evaluation on MMLU, GSM8k, HellaSwag, and WinoGrande (test)

86.55MMLU Accuracy

FP16

Updated 4mo ago

Evaluation Results

Method	Links
FP16 2025.09		86.55	95.07	86.22	84.93	88.19	-
GPTQ+Had128 2025.09		85.59	94.16	85.56	84.77	87.52	99.24
GPTQ+Had16 2025.09		85.58	93.4	85.45	82.4	86.71	98.32
GPTQ 2025.09		85.54	94.09	85.49	84.37	87.37	99.07
RTN 2025.09		85.5	93.48	85.63	83.27	86.97	98.61
RTN+Had128 2025.09		85.24	91.81	84.91	83.35	86.33	97.89
RTN+Had16 2025.09		85.02	93.63	84.97	83.82	86.86	98.49
GPTQ+Had128 2025.09		84.9	93.9	84.8	83.8	86.86	98.48
GPTQ+Had32 2025.09		84.82	94.54	84.66	83.11	86.78	98.4
RTN+Had128 2025.09		84.37	94.47	84.22	82.4	86.37	97.93
RTN+Had32 2025.09		83.86	93.56	84.13	83.58	86.28	97.83
GPTQ 2025.09		83.77	94.47	84.41	82.64	86.32	97.88
RTN 2025.09		83.42	92.65	83.93	81.45	85.36	96.79