Share your thoughts, 1 month free Claude Pro on usSee more
WorkDL logo mark

Logical Reasoning on HLE

0.7226Accuracy

Pass

-0.0226640.1708180.36430.557782Jan 27, 2026Feb 10, 2026Feb 24, 2026Mar 10, 2026Mar 24, 2026Apr 7, 2026Apr 21, 2026
Updated 1mo ago

Evaluation Results

MethodLinks
2026.04
0.7226
2026.04
0.6528
2026.04
0.6
2026.04
0.5806
2026.04
0.5806
2026.04
0.5742
2026.04
0.5699
2026.04
0.5661
2026.04
0.5634
2026.04
0.5419
2026.04
0.5355
2026.04
0.529
2026.04
0.5276
2026.04
0.5259
2026.04
0.5097
2026.04
0.4975
2026.04
0.4968
2026.04
0.4952
2026.04
0.4909
2026.04
0.4753
2026.04
0.4748
2026.04
0.4677
2026.04
0.4645
2026.04
0.4573
2026.04
0.4514
2026.01
0.305
2026.01
0.21
2026.01
0.199
2026.04
0.18
2026.01
0.172
2026.01
0.167
2026.01
0.152
2026.01
0.15
2026.01
0.147
2026.01
0.142
2026.01
0.14
2026.01
0.137
2026.01
0.128
2026.01
0.122
2026.04
0.111
2026.04
0.106
2026.04
0.1
2026.01
0.096
2026.04
0.088
2026.01
0.086
2026.04
0.082
2026.04
0.069
2026.01
0.068
2026.04
0.066
2026.01
0.064
2026.04
0.061
2026.04
0.059
2026.01
0.058
2026.04
0.057
2026.04
0.055
2026.04
0.051
2026.01
0.05
2026.04
0.05
2026.04
0.045
2026.04
0.042
2026.01
0.014
2026.01
0.006