Share your thoughts, 1 month free Claude Pro on usSee more

Character-level language modeling on text8

0.98BPC

GPT2

Updated 4mo ago

Evaluation Results

Method	Links
GPT2 2023.05		0.98
Focus 2023.05		0.98
24L Transformer-XL 2019.01		1.08
Transformer XL 2023.05		1.08
Focus-H (ablation) 2023.05		1.1
64L Transformer 2019.01		1.13
12L Transformer 2019.01		1.18
Transformer-XL 24B 2020.09		1.18
Sandwich Transformer 24B 2020.09		1.18
PAR Transformer 24B 2020.09		1.18
RHN 2019.01		1.27
Large mLSTM 2019.01		1.27
LN HM-LSTM 2019.01		1.29
HM-LSTM 2018.03		1.29
BN-LSTM 2019.01		1.36
TCN 2018.03		1.45