Share your thoughts, 1 month free Claude Pro on usSee more
WorkDL logo mark

Code Correctness Prediction on LiveCodeBench Python

0.067Brier Score

Verb. Conf.

0.0390.2280.4170.606May 27, 2026
Updated 6d ago

Evaluation Results

MethodLinks
2026.05
0.067
2026.05
0.073
2026.05
0.073
2026.05
0.078
2026.05
0.079
2026.05
0.081
2026.05
0.083
2026.05
0.086
2026.05
0.09
2026.05
0.092
2026.05
0.104
2026.05
0.108
2026.05
0.108
2026.05
0.109
2026.05
0.111
2026.05
0.112
2026.05
0.118
2026.05
0.145
2026.05
0.15
2026.05
0.151
2026.05
0.152
2026.05
0.153
2026.05
0.161
2026.05
0.161
2026.05
0.161
2026.05
0.165
2026.05
0.166
2026.05
0.179
2026.05
0.198
2026.05
0.203
2026.05
0.212
2026.05
0.219
2026.05
0.244
2026.05
0.258
2026.05
0.263
2026.05
0.263
2026.05
0.272
2026.05
0.279
2026.05
0.281
2026.05
0.289
2026.05
0.29
2026.05
0.294
2026.05
0.294
2026.05
0.295
2026.05
0.302
2026.05
0.332
2026.05
0.348
2026.05
0.348
2026.05
0.363
2026.05
0.365
2026.05
0.371
2026.05
0.373
2026.05
0.406
2026.05
0.416
2026.05
0.42
2026.05
0.436
2026.05
0.449
2026.05
0.485
2026.05
0.678
2026.05
0.767