Optimizing Large Language Models through Quantization: A Comparative Analysis of PTQ and QAT Techniques

9 November 2024

Papers citing "Optimizing Large Language Models through Quantization: A Comparative Analysis of PTQ and QAT Techniques"

1 / 1 papers shown

Title
Sustainable LLM Inference for Edge AI: Evaluating Quantized LLMs for Energy Efficiency, Output Accuracy, and Inference Latency E. J. Husom Arda Goknil Merve Astekin Lwin Khin Shar Andre Kåsen S. Sen Benedikt Andreas Mithassel Ahmet Soylu MQ 43 0 0 04 Apr 2025