Share your thoughts, 1 month free Claude Pro on usSee more
WorkDL logo mark

Accuracy Evaluation on TruthfulQA

83.41Accuracy

Sparse MAD

0.740422.202743.66565.1273May 19, 2025Jul 20, 2025Sep 20, 2025Nov 22, 2025Jan 23, 2026Mar 26, 2026May 28, 2026
Updated 5d ago

Evaluation Results

MethodLinks
2026.03
83.41
2026.03
81
2026.03
78.03
2026.03
74.89
2026.03
71.75
2026.03
71.75
2026.03
62.78
2026.03
60.49
2026.03
59
2026.03
57
2026.01
55.67
2026.01
55.28
2026.01
53.11
2026.04
49.57
2026.04
49.36
2025.05
47.9
2025.10
47.9
2025.10
47.7
2026.04
46.49
2025.10
41.9
2025.10
41.9
2025.05
41.3
2026.03
40.81
2026.03
40.81
2025.05
40.5
2025.05
40.2
2026.03
39.91
2026.03
39.51
2025.05
38.9
2026.03
37.67
2025.10
36.9
2025.10
36.6
2026.03
33.63
2026.03
32.74
2026.02
31.95
2026.03
31.88
2025.10
31.3
2025.10
30.4
2026.02
30.23
2026.02
29.74
2025.10
29.5
2026.02
29.13
2025.10
28.8
2026.02
28.52
2025.10
28.4
2026.02
27.54
2026.02
27.42
2025.10
27.1
2026.02
26.68
2026.02
26.56
2026.02
26.56
2025.10
26.2
2025.10
25.7
2026.02
25.58
2025.10
25.1
2025.10
24.9
2025.10
23.5
2026.02
23.38
2026.02
23.13
2025.10
22.8
2026.02
22.4
2026.02
21.3
2025.10
18.5
2026.03
17.94
2025.10
17.5
2025.10
17.3
2025.10
16.9
2025.10
16.7
2025.10
16.3
2025.10
15.4
2025.10
14.8
2025.10
14.4
2025.10
13.6
2026.05
10.65
2026.05
10.28
2026.05
10.26
2026.05
10.13
2026.05
9.64
2026.05
9.18
2026.05
8.63
2026.05
8.45
2026.05
7.47
2026.05
6.65
2026.05
6.61
2026.05
6.49
2026.05
6.31
2026.05
6.16
2026.05
6.12
2026.05
6
2026.05
5.88
2026.05
5.63
2026.05
5.63
2026.05
5.42
2026.05
5.28
2026.05
5.2
2026.05
5.1
2026.05
3.92