Share your thoughts, 1 month free Claude Pro on usSee more

Zero-shot Language Understanding on ARC-E, ARC-C, HellaSwag, LAMBADA, and PIQA (lm-eval 0.4.11 test)

81.5Average Accuracy

BF16

Updated 3mo ago

Evaluation Results

Method	Links
BF16 2026.03		81.5
NVFP4 2026.03		80.9
IF4 2026.03		80.9
NVINT4 2026.03		80.8
4/6 2026.03		80.8
MXFP4 2026.03		79.5
BF16 2026.03		76.4
IF4 2026.03		76.4
NVINT4 2026.03		76
NVFP4 2026.03		76
BF16 2026.03		75.9
4/6 2026.03		75.7
BF16 2026.03		75.5
MXFP4 2026.03		75.5
IF4 2026.03		75.3
NVFP4 2026.03		75.2
4/6 2026.03		74.9
NVINT4 2026.03		74.6
4/6 2026.03		74.6
IF4 2026.03		74.6
MXFP4 2026.03		74.2
NVINT4 2026.03		74
NVFP4 2026.03		73.9
MXFP4 2026.03		72.8
BF16 2026.03		70.5
IF4 2026.03		70
BF16 2026.03		69.4
NVFP4 2026.03		69.3
4/6 2026.03		69.2
NVINT4 2026.03		68.7
IF4 2026.03		68.4
NVFP4 2026.03		67.6
NVINT4 2026.03		67.5
4/6 2026.03		67
MXFP4 2026.03		66.3
BF16 2026.03		65.1
IF4 2026.03		64.3
NVFP4 2026.03		64.1
4/6 2026.03		63.9
MXFP4 2026.03		63.8
NVINT4 2026.03		63.1
MXFP4 2026.03		61.5