Share your thoughts, 1 month free Claude Pro on usSee more
WorkDL logo mark

General Knowledge Evaluation on MMLU

78.9MMLU Accuracy

Default

22.01236.78151.5566.319Jan 31, 2025Apr 10, 2025Jun 18, 2025Aug 26, 2025Nov 3, 2025Jan 11, 2026Mar 22, 2026
Updated 3d ago

Evaluation Results

MethodLinks
2026.02
78.9----
2026.02
78.7----
2026.03
78.69----
2026.03
78.45----
2026.02
77.8----
2026.02
77.3----
2026.01
73.01----
2026.01
71.93----
2026.02
64.4----
2026.02
63.9----
2026.02
63.8----
2026.02
63.7----
2026.02
63.6----
2026.02
61.9----
2026.02
61.2----
2025.01
60.3----
2025.01
60.2----
2025.01
58.6----
2025.01
58.2----
2026.01
56.69----
2025.01
56.5----
2025.01
56.4----
2026.01
55.68----
2025.01
54.4----
2025.01
53.8----
2026.01
52.99----
2026.01
52.51----
2026.03
51.31----
2025.03
50.7----
2026.03
48.37----
2026.03
48.12----
2026.03
47.07----
2025.03
46.8----
2026.03
46.41----
2026.03
44.24----
2026.03
42.71----
2026.03
41.25----
2025.03
41----
2026.03
40.42----
2026.03
39.6----
2026.01
34.56----
2025.03
34.4----
2026.01
28.65----
2025.03
27.3----
2026.01
24.2----
2026.04
--0.2---
2026.04
--0.9---
2026.04
--0.6---
2026.04
--6.8---
2026.04
--0.6---
2026.04
-2.5---
2026.04
--1---
2026.04
--757581
2026.04
--767583
2026.04
--617280
2026.04
--617082
2026.04
--364582
2026.04
--354682