NEO: Saving GPU Memory Crisis with CPU Offloading for Online LLM Inference

2 November 2024

Papers citing "NEO: Saving GPU Memory Crisis with CPU Offloading for Online LLM Inference"

1 / 1 papers shown

Title
HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading Cheng Luo Zefan Cai Hanshi Sun Jinqi Xiao Bo Yuan Wen Xiao Junjie Hu Jiawei Zhao Beidi Chen Anima Anandkumar 69 1 0 18 Feb 2025