Share your thoughts, 1 month free Claude Pro on usSee more
WorkDL logo mark

Hallucination Detection on HaluBench (AUROC)

97AUROC

F: Ans. Expect.

-3.3995222.6657448.73174.79626May 16, 2026
Updated 14d ago

Evaluation Results

MethodLinks
2026.05
97
2026.05
96
2026.05
91
2026.05
91
2026.05
91
2026.05
87
2026.05
82
2026.05
80
2026.05
77
2026.05
76
2026.05
68
2026.05
67
2026.05
67
2026.05
67
2026.05
67
2026.05
62
2026.05
62
2026.05
62
2026.05
60
2026.05
56
2026.05
54
2026.05
50
2026.05
31
2026.05
0.935
2026.05
0.928
2026.05
0.915
2026.05
0.913
2026.05
0.911
2026.05
0.911
2026.05
0.91
2026.05
0.904
2026.05
0.9
2026.05
0.9
2026.05
0.9
2026.05
0.9
2026.05
0.9
2026.05
0.898
2026.05
0.898
2026.05
0.896
2026.05
0.895
2026.05
0.894
2026.05
0.893
2026.05
0.891
2026.05
0.889
2026.05
0.885
2026.05
0.883
2026.05
0.883
2026.05
0.88
2026.05
0.879
2026.05
0.879
2026.05
0.879
2026.05
0.873
2026.05
0.871
2026.05
0.868
2026.05
0.865
2026.05
0.855
2026.05
0.839
2026.05
0.824
2026.05
0.823
2026.05
0.792
2026.05
0.788
2026.05
0.774
2026.05
0.679
2026.05
0.678
2026.05
0.637
2026.05
0.635
2026.05
0.613
2026.05
0.607
2026.05
0.579
2026.05
0.564
2026.05
0.557
2026.05
0.535
2026.05
0.524
2026.05
0.48
2026.05
0.462