Share your thoughts, 1 month free Claude Pro on usSee more

Long-context language modeling on LongBench 4-task average

12.7Average Accuracy

2d hetero

Updated 3mo ago

Evaluation Results

Method	Links
2d hetero 2026.04		12.7	582
2d hetero 2026.04		12.1	283
2d hetero 2026.04		12	136
2d hetero 2026.04		11.5	1,175
full 2026.04		11.5	1,859
2d uniform 2026.04		7.7	448
2d uniform 2026.04		7.5	224
2d 2026.04		7.3	1,175
1d 2026.04		6.9	224
2d uniform 2026.04		6.8	112
2d 2026.04		6.5	582
1d 2026.04		6.1	56
1d 2026.04		6	448
2d 2026.04		5.9	139
2d 2026.04		5.8	283
2d uniform 2026.04		4.9	56
1d 2026.04		4.1	112