Share your thoughts, 1 month free Claude Pro on usSee more

LLM Inference on LLaMA-2 70B sequence length 2048

384Max Batch Size

CXL-SpecKV + Comp

Updated 5mo ago

Evaluation Results

Method	Links
CXL-SpecKV + Comp 2025.12		384	-	24
CPU Offload 2025.12		192	-	12
CXL-SpecKV 2025.12		128	-	8
GPU + Compression 2025.12		48	-	3
GPU-Only 2025.12		16	-	1