MTP
-
RTX 2080Ti CAOVAN vLLM SM75 Turbo3 推理加速插件(v0.4.13版)从零安装教程
这篇教程面向没有 Linux 部署经验的新手用户,从一台空白 Ubuntu 22.04 机器开始,逐步安装 Miniconda、创建 Python 环境、安装 vLLM 与 Cao…
-
RTX 2080Ti CAOVAN vLLM SM75 Turbo3 推理加速插件(v0.1.3版)从零安装教程
摘要:RTX 2080 Ti 虽然已经不是最新显卡,但其 22GB 显存版本依然适合本地运行中大型多模态模型。针对这张卡所属的 Turing SM75 架构,本站开发了 caova…
-
Ubuntu 22.04 使用 llama.cpp 部署 Qwopus3.6-27B-v2-MTP-GGUF:双张 2080 Ti 跑通 262K 上下文与 MTP 加速实测
最近我在 Ubuntu 22.04 服务器上测试了一款比较有意思的 GGUF 大模型:Qwopus3.6-27B-v2-MTP-GGUF。 这个模型基于 Qwen3.6-27B,重…