Share your thoughts, 1 month free Claude Pro on usSee more

Long-context Language Understanding on LongBench (7-Category Performance Summary)

80.29Math Performance

16-bit Baseline

Updated 2mo ago

Evaluation Results

Method	Links
16-bit Baseline 2025.03		80.29	55.97	52.58	33.55	42.47	17.56	48
16-bit Baseline 2025.03		71.42	59.78	61.21	39.95	47.71	18.07	67.78
16-bit Baseline 2025.03		70.28	57.47	59.02	39.72	42.48	17.21	61.33
LogQuant 2025.03		63.31	49.37	58.25	38.01	41.37	17.24	52.17
KiVi 2025.03		59.82	37.48	57.5	37.91	40.39	17.17	46.85
16-bit Baseline 2025.03		56.18	52.46	53.88	33.05	39.26	17.11	26.5
16-bit Baseline 2025.03		52.99	58.23	61.9	33.35	44.66	16.33	43
LogQuant 2025.03		51.86	40.84	39.36	21.7	23.63	9.89	5.39
LogQuant 2025.03		49.28	40.68	52.54	32.04	37.22	17.38	13.5
LogQuant 2025.03		40.41	52.09	56.42	36.08	41.9	16.62	52.51
KiVi 2025.03		39.27	34.79	51.32	31.08	35.8	17.16	10
LogQuant 2025.03		34.34	48.71	51.23	28.28	34.84	13.13	22.83
KiVi 2025.03		18.04	43.06	52.5	34.01	38.89	16.1	45.02
KiVi 2025.03		12.59	33.97	36.17	18.19	19.58	9.1	4.83
KiVi 2025.03		3.71	35.91	35.26	12.35	20.52	9.31	11.42