Share your thoughts, 1 month free Claude Pro on usSee more

Long-context Factuality Evaluation on LongBench (Factuality Subset)

32.86Fact Count

DPO w/ LongReward

Updated 3mo ago

Evaluation Results

Method	Links
DPO w/ LongReward 2024.10		32.86	92.85
DPO w/ LongReward 2024.10		28.05	93.62
SFT 2024.10		21.76	91.94
SFT 2024.10		18.41	91.43