Dynamic LLM Routing and Selection based on User Preferences: Balancing Performance, Cost, and Ethics

Dynamic LLM Routing and Selection based on User Preferences: Balancing Performance, Cost, and Ethics

23 February 2025

Deepak Babu Piskala

Papers citing "Dynamic LLM Routing and Selection based on User Preferences: Balancing Performance, Cost, and Ethics"

13 / 13 papers shown

Title
ReasoningV: Efficient Verilog Code Generation with Adaptive Hybrid Reasoning Model Haiyan Qin Zhiwei Xie Jingjing Li Liangchen Li Xiaotong Feng Jing Liu Wang Kang OffRL LRM 379 1 0 20 Apr 2025
A Comprehensive Evaluation of Quantization Strategies for Large Language Models Renren Jin Jiangcun Du Wuwei Huang Wei Liu Jian Luan Bin Wang Deyi Xiong MQ 57 34 0 26 Feb 2024
LLM-FP4: 4-Bit Floating-Point Quantized Transformers Shih-yang Liu Zechun Liu Xijie Huang Pingcheng Dong Kwang-Ting Cheng MQ 43 61 0 25 Oct 2023
QLoRA: Efficient Finetuning of Quantized LLMs Tim Dettmers Artidoro Pagnoni Ari Holtzman Luke Zettlemoyer ALM 139 2,545 0 23 May 2023
HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face Yongliang Shen Kaitao Song Xu Tan Dongsheng Li Weiming Lu Yueting Zhuang MLLM 104 884 0 30 Mar 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 1.3K 14,289 0 15 Mar 2023
GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers Elias Frantar Saleh Ashkboos Torsten Hoefler Dan Alistarh MQ 92 980 0 31 Oct 2022
BioGPT: Generative Pre-trained Transformer for Biomedical Text Generation and Mining Renqian Luo Liai Sun Yingce Xia Tao Qin Sheng Zhang Hoifung Poon Tie-Yan Liu MedIm AI4CE LM&MA 88 831 0 19 Oct 2022
Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time Mitchell Wortsman Gabriel Ilharco S. Gadre Rebecca Roelofs Raphael Gontijo-Lopes ... Hongseok Namkoong Ali Farhadi Y. Carmon Simon Kornblith Ludwig Schmidt MoMe 116 980 1 10 Mar 2022
A General Language Assistant as a Laboratory for Alignment Amanda Askell Yuntao Bai Anna Chen Dawn Drain Deep Ganguli ... Tom B. Brown Jack Clark Sam McCandlish C. Olah Jared Kaplan ALM 116 775 0 01 Dec 2021
LoRA: Low-Rank Adaptation of Large Language Models J. E. Hu Yelong Shen Phillip Wallis Zeyuan Allen-Zhu Yuanzhi Li Shean Wang Lu Wang Weizhu Chen OffRL AI4TS AI4CE ALM AIMat 373 10,273 0 17 Jun 2021
BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension M. Lewis Yinhan Liu Naman Goyal Marjan Ghazvininejad Abdel-rahman Mohamed Omer Levy Veselin Stoyanov Luke Zettlemoyer AIMat VLM 227 10,815 0 29 Oct 2019
Distilling the Knowledge in a Neural Network Geoffrey E. Hinton Oriol Vinyals J. Dean FedML 329 19,634 0 09 Mar 2015