Share your thoughts, 1 month free Claude Pro on usSee more

Long-context language modeling evaluation on FDA (test)

0.8004Score

GA-S2

Updated 4mo ago

Evaluation Results

Method	Links
GA-S2 2025.12		0.8004
GA-S2 2025.12		0.7822
AVG-S2 2025.12		0.7641
LM-PPL 2025.12		0.7613
GA-S2 2025.12		0.7595
GA-S2 2025.12		0.7559
AVG-S2 2025.12		0.7532
GA-S2 2025.12		0.7514
GA-S2 2025.12		0.7514
AR 2025.12		0.7505
AR-MH 2025.12		0.7505
GR-S2 2025.12		0.7468
GR-S2 2025.12		0.7459
AR 2025.12		0.7432
SMART 2025.12		0.7359
GA-S2 2025.12		0.7314
AVG-S2 2025.12		0.7241
AVG-S2 2025.12		0.7196
UNIFORM 2025.12		0.7178
SMART 2025.12		0.7169
KV 2025.12		0.7096
AR-MH 2025.12		0.7069
AVG-S2 2025.12		0.706
AR 2025.12		0.7051
AR 2025.12		0.7042
SMART 2025.12		0.7033
VT 2025.12		0.696
KV 2025.12		0.6942
GR-S2 2025.12		0.6933
GR-S2 2025.12		0.686
CWE 2025.12		0.6842
AR-MH 2025.12		0.6833
AVG-S2 2025.12		0.6806
KV 2025.12		0.6788
CWE 2025.12		0.6779
KV 2025.12		0.676
AVG-S1 2025.12		0.6751
GR-S1 2025.12		0.6697
SMART 2025.12		0.6679
AR-MH 2025.12		0.6679
UNIFORM 2025.12		0.6642
GR-S2 2025.12		0.6633
AVG-S2 2025.12		0.6588
KV 2025.12		0.6461
AVG-S1 2025.12		0.6443
AR-MH 2025.12		0.6416
AR 2025.12		0.6379
UNIFORM 2025.12		0.6334
VT 2025.12		0.6279
KV 2025.12		0.6261
GA-S1 2025.12		0.6234
CWE 2025.12		0.6207
GA-S2 2025.12		0.6025
AR 2025.12		0.6016
GR-S1 2025.12		0.6007
AVG-S2 2025.12		0.588
ACT-MSE 2025.12		0.5771
ACT-MSE 2025.12		0.5726
ACT-MSE 2025.12		0.5672
GR-S1 2025.12		0.5644
AR-MH 2025.12		0.5572
GA-S1 2025.12		0.5563
LM-PPL 2025.12		0.5508
CWE 2025.12		0.5345
LM-PPL 2025.12		0.5299
AVG-S1 2025.12		0.5227
GA-S1 2025.12		0.5163
GR-S1 2025.12		0.51
GR-S2 2025.12		0.5054
ACT-MSE 2025.12		0.5045
AR 2025.12		0.5
LM-PPL 2025.12		0.5
VT 2025.12		0.4809
LM-PPL 2025.12		0.4809
AR-MH 2025.12		0.4773
GA-S1 2025.12		0.4746
UNIFORM 2025.12		0.4728
AVG-S1 2025.12		0.4628
AR 2025.12		0.4601
GR-S1 2025.12		0.4465
SMART 2025.12		0.4374
GA-S1 2025.12		0.4365
GA-S1 2025.12		0.4247
LM-PPL 2025.12		0.4201
VT 2025.12		0.4183
AVG-S1 2025.12		0.4165
AVG-S1 2025.12		0.4074
UNIFORM 2025.12		0.4011
UNIFORM 2025.12		0.3684
UNIFORM 2025.12		0.3648
VT 2025.12		0.3648
GR-S2 2025.12		0.3612
GR-S1 2025.12		0.3548
SMART 2025.12		0.3448
VT 2025.12		0.3385
ACT-MSE 2025.12		0.3385
GR-S2 2025.12		0.3303
SMART 2025.12		0.3276
CWE 2025.12		0.3258
CWE 2025.12		0.3149

Showing 100 of 120 rows