Share your thoughts, 1 month free Claude Pro on usSee more

Long-context language modeling on HELMET

247Summarization Score

Qwen2.5-14B + RLVR

Updated 4mo ago

Evaluation Results

Method	Links
Qwen2.5-14B + RLVR 2025.09		247	-	420	-	46.7	25.5
Qwen2.5-14B + SPELL 2025.09		230	-	392	-	52.3	31.6
Qwen2.5-32B + SPELL 2025.09		212	-	564	-	61.4	35
Qwen2.5-32B + RLVR 2025.09		210	-	167	-	52.7	25.8
Qwen2.5-32B 2025.09		162	-	428	-	59	28.1
Qwen2.5-7B + RLVR 2025.09		143	-	26	-	49.3	18.5
Qwen2.5-7B + SPELL 2025.09		137	-	104	-	54.2	24.2
Qwen2.5-7B 2025.09		41	-	35	-	50	11.5
Qwen2.5-14B 2025.09		37	-	15	-	42.4	15.2
CoPE 2026.02		32.78	21.02	85.5	99	67.83	61.23
CoPE 2026.02		32.37	19.06	-	34	-	28.48
CoPE 2026.02		30.88	15.07	86.4	97.88	63.17	58.68
CoPE 2026.02		30.81	16.89	83.7	98.88	67.72	59.6
CoPE 2026.02		29.76	13.1	79.4	99.63	68.67	58.11
RoPE 2026.02		29.18	6.46	74.6	99.75	68.38	55.74
RoPE 2026.02		28.46	8.39	80.2	99.13	67.44	56.86
CoPE 2026.02		27.89	18.23	84.7	76	56.78	52.72
HardClip 2026.02		25.7	9.28	77	98.5	67.5	55.6
HardClip 2026.02		25.68	7.44	73.1	99.75	68.06	54.81
RoPE 2026.02		21.76	8.52	83.4	98.13	66.67	55.7
HardClip 2026.02		18.55	10.16	79.8	98.5	66.11	54.62
RoPE 2026.02		11.1	7.67	85.5	97.63	62.78	52.94
HardClip 2026.02		9.33	9.31	77.3	82.13	62.05	48.02
RoPE 2026.02		9.06	7.93	-	26.13	-	14.37
HardClip 2026.02		8.6	9.24	-	36.86	-	18.23
HardClip 2026.02		6.93	10.31	82.2	94.38	59.72	50.71
RoPE 2026.02		6.31	8.21	82.1	71.38	53.44	44.29