RedPajama

Benchmarks

Task Name	Dataset Name	SOTA Result
Language Modeling	RedPajama LLaMA pretraining corpus (evaluation slice)	Perplexity (bits/byte)0.62	15
Language Modeling	RedPajama	Perplexity26.756	13
Document Deduplication	RedPajama 100GB web content	SA94	8
Safety Evaluation	RedPajama Safety Evals (test)	Safety Score (Avg)93.4	7
Generation Quality	RedPajama Generation Quality Prefixes (test)	Standard Prefix Count32.4	4

Showing 5 of 5 rows