Share your thoughts, 1 month free Claude Pro on usSee more

Language Model Evaluation on Quality, Factuality, and Safety Evaluation Suite (test)

86.3Generation Quality Score

Self-Improving Pretraining

Updated 4mo ago

Evaluation Results

Method	Links
Self-Improving Pretraining 2026.01		86.3	50.8	87.9	43.6	84.9
Self-Improving Pretraining 2026.01		84	50.5	81.4	57.6	85.1
Self-Improving Pretraining 2026.01		73.6	49.1	73.9	38	91.1
Llama-3.1 8B Base 2026.01		66.1	63.1	77.1	26.3	71
Llama Pretrain Baseline 2026.01		54.5	47.9	57.1	40.8	75.5
Llama Base 2026.01		50	47.6	50.1	42.3	76.9
Llama Pretrain Baseline 2026.01		49	46.8	49.4	44	76.9