MTP

人工智能

caovan-vLLM SM75 Turbo3 v0.4.22 升级到 v0.4.33

本文详细介绍 Caovan vLLM SM75 Turbo3 v0.4.33 的安装与使用方法，适用于 2×RTX 2080Ti 22G / SM75 显卡运行 Qwen3.6-2…

朋远方
2026年6月11日
103839
人工智能

caovan-vLLM SM75 Turbo3 v0.4.13 升级到 v0.4.22

caovan-vLLM SM75 Turbo3 是面向 RTX 2080Ti / SM75 架构显卡的 vLLM 外部加速插件，主要用于在老架构显卡上尽可能释放大模型推理性能。本文…

朋远方
2026年6月10日
001882
人工智能

RTX 2080Ti CAOVAN vLLM SM75 Turbo3 推理加速插件（v0.4.13版）从零安装教程

这篇教程面向没有 Linux 部署经验的新手用户，从一台空白 Ubuntu 22.04 机器开始，逐步安装 Miniconda、创建 Python 环境、安装 vLLM 与 Cao…

朋远方
2026年6月6日
001.3K25
人工智能

RTX 2080Ti CAOVAN vLLM SM75 Turbo3 推理加速插件（v0.1.3版）从零安装教程

摘要：RTX 2080 Ti 虽然已经不是最新显卡，但其 22GB 显存版本依然适合本地运行中大型多模态模型。针对这张卡所属的 Turing SM75 架构，本站开发了 caova…

朋远方
2026年5月29日
001.0K12
人工智能

Ubuntu 22.04 使用 llama.cpp 部署 Qwopus3.6-27B-v2-MTP-GGUF：双张 2080 Ti 跑通 262K 上下文与 MTP 加速实测

最近我在 Ubuntu 22.04 服务器上测试了一款比较有意思的 GGUF 大模型：Qwopus3.6-27B-v2-MTP-GGUF。这个模型基于 Qwen3.6-27B，重…

朋远方
2026年5月24日
001.1K1