Share your thoughts, 1 month free Claude Pro on usSee more
WorkDL logo mark

Question Answering on LongBench Qasper

0.4459F1

InnerQBase

0.0435240.1479870.252450.356913Jan 6, 2026Jan 14, 2026Jan 23, 2026Jan 31, 2026Feb 9, 2026Feb 17, 2026Feb 26, 2026
Updated 11d ago

Evaluation Results

MethodLinks
2026.02
0.4459
2026.02
0.4458
2026.02
0.4408
2026.02
0.4361
2026.02
0.424
2026.02
0.4236
2026.02
0.4063
2026.02
0.4032
2026.02
0.3959
2026.02
0.3884
2026.02
0.3849
2026.02
0.3709
2026.01
0.2838
2026.01
0.2693
2026.01
0.269
2026.01
0.2683
2026.01
0.2655
2026.01
0.2635
2026.01
0.253
2026.01
0.2482
2026.01
0.2456
2026.01
0.2425
2026.01
0.237
2026.01
0.2317
2026.01
0.2308
2026.01
0.2269
2026.01
0.2224
2026.02
0.2218
2026.02
0.2184
2026.02
0.2111
2026.02
0.2099
2026.02
0.2043
2026.02
0.203
2026.02
0.2029
2026.02
0.1984
2026.01
0.1908
2026.02
0.1837
2026.01
0.182
2026.01
0.1806
2026.02
0.18
2026.02
0.1785
2026.02
0.175
2026.02
0.1723
2026.02
0.1659
2026.02
0.1656
2026.01
0.1654
2026.01
0.1643
2026.01
0.1581
2026.02
0.1548
2026.02
0.1509
2026.01
0.1436
2026.01
0.139
2026.01
0.1316
2026.02
0.1312
2026.02
0.102
2026.02
0.095
2026.02
0.093
2026.02
0.082
2026.02
0.077
2026.02
0.074
2026.02
0.063
2026.02
0.059