Share your thoughts, 1 month free Claude Pro on usSee more

Long-context understanding on LongBench v1 (test)

49.6SD QA

Llama-3.1-8B

Updated 4mo ago

Evaluation Results

Method	Links
Llama-3.1-8B 2025.05		49.6	50.9	31.2	69.4	60	53.5	53.8
TailorKV-2 2025.05		49.3	50.5	29.4	68.7	58.1	53.3	52.9
PQCache 2025.05		48.4	49.5	27	67.3	56.3	53.6	51.7
TailorKV-1 2025.05		48.2	50.9	29.2	68.1	58.3	53.4	52.6
Quest 2025.05		40.1	46.9	20.7	61.6	48	52.4	46.2
TailorKV-1 2025.05		38	44.3	27.3	60.2	66.3	24.3	44.7
Yi-9B 2025.05		36.6	44.7	28.8	60.6	69.6	35	47
TailorKV-2 2025.05		35.6	43.5	27.3	60.1	66	23.5	44
SnapKV 2025.05		35.2	48.1	20.2	56.5	52.8	52.5	45.2
TailorKV-1 2025.05		32.5	15.4	1.4	49.7	55.9	4	28.3
TailorKV-2 2025.05		32.5	15.3	1.5	49.1	56.4	4	28.2
PQCache 2025.05		32.4	41.6	19.2	58.6	64.4	27.8	42
Yi-6B 2025.05		32.4	15.3	1.3	49.9	69.8	9.5	29.7
PQCache 2025.05		30.4	14.5	0.6	48	55.8	4	27.3
Quest 2025.05		29.2	37.9	15.4	57.5	59.6	25.7	39.1
Quest 2025.05		26.5	12.5	0.3	46.9	51.9	8.5	26.2
StreamLLM 2025.05		26.3	42.7	17.9	50	48.2	53.5	40.6
SnapKV 2025.05		25	38.8	11.9	49	59.7	18.8	35
SnapKV 2025.05		24.2	13	1.6	38.5	51.2	3.7	23.3
StreamLLM 2025.05		21.3	33.6	11	44.1	51.8	14.7	30.6
StreamLLM 2025.05		20	11.6	1.6	34	44.6	4	20.4