GGUF
-
Ubuntu 22.04 使用 llama.cpp 部署 Qwopus3.6-27B-v2-MTP-GGUF:双张 2080 Ti 跑通 262K 上下文与 MTP 加速实测
最近我在 Ubuntu 22.04 服务器上测试了一款比较有意思的 GGUF 大模型:Qwopus3.6-27B-v2-MTP-GGUF。 这个模型基于 Qwen3.6-27B,重…
-
GPTQ、GGUF、AWQ 大语言模型量化方法对比(转载)
在本文中,我们将探讨几种(量化)的方式,除此以外,还会介绍分片及不同的保存和压缩策略。 说明:每次加载LLM示例后,建议清除缓存,以防止出现OutOfMemory错误。 del m…