Share your thoughts, 1 month free Claude Pro on usSee more

LLM Inference on Long-Context LLM Inference Decode

0.13Latency (ms)

Reuse

Updated 1mo ago

Evaluation Results

Method	Links
Reuse 2025.12		0.13	0.18	-	-
Kascade 2025.12		0.24	-	2.91	2.95
FA3 2025.12		0.7	-	-	-
Tilelang (TL) 2025.12		0.71	-	-	-
Anchor 2025.12		0.82	1.15	-	-
Anchor layer 0 2025.12		0.92	1.3	-	-
Kascade 2025.12		5.33	-	4.1	4.08
Kascade 2025.12		10.17	-	2.15	2.14