AWQ
-
RTX 2080Ti CAOVAN vLLM SM75 Turbo3 推理加速插件(v0.4.13版)从零安装教程
这篇教程面向没有 Linux 部署经验的新手用户,从一台空白 Ubuntu 22.04 机器开始,逐步安装 Miniconda、创建 Python 环境、安装 vLLM 与 Cao…
-
GPTQ、GGUF、AWQ 大语言模型量化方法对比(转载)
在本文中,我们将探讨几种(量化)的方式,除此以外,还会介绍分片及不同的保存和压缩策略。 说明:每次加载LLM示例后,建议清除缓存,以防止出现OutOfMemory错误。 del m…