Chameleon: Adaptive Caching and Scheduling for Many-Adapter LLM Inference Environments

24 November 2024

Papers citing "Chameleon: Adaptive Caching and Scheduling for Many-Adapter LLM Inference Environments"

2 / 2 papers shown

Title
LoRA-Pro: Are Low-Rank Adapters Properly Optimized? Zhengbo Wang Jian Liang Ran He Zilei Wang Tieniu Tan 186 29 0 25 Jul 2024
FlexLLM: A System for Co-Serving Large Language Model Inference and Parameter-Efficient Finetuning Xupeng Miao Gabriele Oliaro Xinhao Cheng Vineeth Kada Ruohan Gao ... April Yang Yingcheng Wang Mengdi Wu Colin Unger Zhihao Jia MoE 175 10 0 29 Feb 2024