Share your thoughts, 1 month free Claude Pro on usSee more

Language Modeling on Pretraining Dataset

2.1506Train Loss (PT)

LLR

Updated 12d ago

Evaluation Results

Method	Links
LLR 2026.05		2.1506	-	8.74
Uniform 2026.05		2.1543	-	8.66
LLR 2026.05		2.1722	-	8.86
Uniform 2026.05		2.1758	-	9.02
BHyT 2025.12		3.133	3.107	22.346
LNS 2025.12		3.16	3.139	23.091
Peri-LN 2025.12		3.165	3.142	23.156
RMSNorm 2025.12		3.203	3.18	24.04
BHyT 2025.12		3.268	3.254	25.908
LNS 2025.12		3.28	3.271	26.342
RMSNorm 2025.12		3.281	3.272	26.353
Peri-LN 2025.12		3.288	3.279	26.545
DyT 2025.12		3.709	3.696	40.294
DyT 2025.12		3.877	3.855	47.244