Share your thoughts, 1 month free Claude Pro on usSee more

Large Language Model Evaluation on 12-task evaluation suite composite (test)

49.6Reading Comprehension Score

FineWeb-Edu

Updated 4mo ago

Evaluation Results

Method	Links
FineWeb-Edu 2025.12		49.6	60.5	46.2	51.2	212
FineWebPro 2025.12		49.3	60.7	45.9	51.4	212
FineWeb-Mask 2025.12		49.1	59.9	48.9	52.6	412
FineWeb-DCLM 2025.12		49	60.4	47.8	52.2	112
FineWeb-Mask 2025.12		48.8	56.6	42.1	48.1	612
FineWeb-Semdedup 2025.12		48.3	57.6	45.3	50	112
FineWeb-DCLM 2025.12		48.2	57.2	39.5	46.9	112
UltraFineWeb-en 2025.12		48.2	59.6	42.7	49.5	112
FineWeb 2025.12		48.1	58.1	46.8	50.7	112
FineWebPro 2025.12		47.6	57.3	40.3	47.2	212
UltraFineWeb-en 2025.12		47.4	56.5	38.2	45.8	12
FineWeb-Edu 2025.12		46.8	56.7	40.2	46.8	312
FineWeb-Semdedup 2025.12		46.1	53.3	36.7	43.8	12
FineWeb 2025.12		46	53.6	38.8	44.9	12