PG-19

Benchmarks

Task Name	Dataset Name	SOTA Result
Language Modeling	PG-19 (test)	Perplexity9.765	112
Long-context generation efficiency	PG-19	Throughput407.96	64
Long-Context Generation	PG-19 24K context length	Throughput393.9	32
Long-Context Generation	PG-19 16K context length	Throughput486.5	32
Long-Context Generation	PG-19 8K context length	Throughput553.79	32
Needle-in-the-Haystack retrieval	PG-19 mini 10K context	Accuracy (Needle-in-the-Haystack)100	30
Language modeling	PG-19 (val)	Perplexity18.43	29
Language Modeling	PG-19 500M parameters scale (test)	PPLX40.72	20
Online Language Modeling	PG-19 (Whole Book)	PPL @ 50K18.87	17
Needle-in-the-Haystack retrieval	PG-19 mini 100K context	Accuracy100	15
Needle-in-the-Haystack retrieval	PG-19 mini 32K context	Accuracy100	15
Language Modeling	PG-19 subword-level	Forward BPT3.94	6
Long-Context Generation	PG-19 60K context length	Throughput Speedup (micro)6.29	6
Long-Context Generation	PG-19 50K context length	Throughput Speedup (micro)5.79	6
Long-Context Generation	PG-19 40K context length	Throughput Speedup (micro)5.46	6
Long-Context Generation	PG-19 30K context length	Throughput Speedup (micro)4.75	6
Language Modeling	PG-19 (dev)	Perplexity52.08	6
Compression Capacity	PG-19 (test)	Max Tokens1,568	6
Long-range Next-token prediction	PG-19 long-context	Perplexity (PPL)101.09	5
Language Modeling	PG-19 128K context length	Perplexity7.244	2
Language Modeling	PG-19 64K context length	Perplexity9.043	2
Language Modeling	PG-19 8K context length	Perplexity12.313	2

Showing 22 of 22 rows