Efficient and Workload-Aware LLM Serving via Runtime Layer Swapping and KV Cache Resizing

Efficient and Workload-Aware LLM Serving via Runtime Layer Swapping and KV Cache Resizing

24 May 2025

ArXiv (abs)PDF HTML

Papers citing "Efficient and Workload-Aware LLM Serving via Runtime Layer Swapping and KV Cache Resizing"

Title
No papers