Share your thoughts, 1 month free Claude Pro on usSee more

Language Modeling on C4 LLaMA-350M (val)

15.87Perplexity

FOAM-2

Updated 2mo ago

Evaluation Results

Method	Links
FOAM-2 2025.12		15.87	1.3	-
FOAM-3 2025.12		15.94	1.14	-
FOAM-Mini 2025.12		16.53	1	-
APOLLO-1/4 2025.12		16.73	1.38	-
Apollo 2025.09		16.85	1.9	368
MUON 2025.12		16.96	1.6	-
APOLLO-1/8 2025.12		16.98	1.23	-
CR-Net 2025.09		17.08	1.86	250
APOLLO-Mini 2025.12		17.17	1	-
Full-Adam 2025.12		17.33	2.2	-
Adam-Mini 2025.12		17.83	1.46	-
GWT-Mini 2025.12		18.12	1	-
Full-rank 2025.09		18.8	2.74	368
LORO 2025.09		18.84	1.38	185
RSO 2025.09		18.87	1.9	368
CR-Net 2025.09		18.95	1.36	183
GaLore 2025.09		18.95	1.9	368
GaLore-1/4 2025.12		19.36	1.38	-
CoLA 2025.09		19.4	1.38	185
SLTrain 2025.09		19.42	1.45	194
GaLore-1/8 2025.12		21.59	1.23	-
LoRA 2025.09		25.58	1.94	368
ReLoRA 2025.09		29.08	1.94	368