vllm
-
caovan-vLLM SM75 Turbo3 v0.4.22 升级到 v0.4.33
本文详细介绍 Caovan vLLM SM75 Turbo3 v0.4.33 的安装与使用方法,适用于 2×RTX 2080Ti 22G / SM75 显卡运行 Qwen3.6-2…
-
Caovan vLLM SM75 Turbo3 v0.4.33 技术报告
从 FlashQLA 参考路线到自研 GDNCore Real Prefill 的阶段性演进 摘要 Caovan vLLM SM75 Turbo3 external plugin …
-
caovan-vLLM SM75 Turbo3 v0.4.13 升级到 v0.4.22
caovan-vLLM SM75 Turbo3 是面向 RTX 2080Ti / SM75 架构显卡的 vLLM 外部加速插件,主要用于在老架构显卡上尽可能释放大模型推理性能。本文…
-
RTX 2080Ti CAOVAN vLLM SM75 Turbo3 推理加速插件(v0.4.13版)从零安装教程
这篇教程面向没有 Linux 部署经验的新手用户,从一台空白 Ubuntu 22.04 机器开始,逐步安装 Miniconda、创建 Python 环境、安装 vLLM 与 Cao…
-
RTX 2080Ti CAOVAN vLLM SM75 Turbo3 推理加速插件(v0.1.3版)从零安装教程
摘要:RTX 2080 Ti 虽然已经不是最新显卡,但其 22GB 显存版本依然适合本地运行中大型多模态模型。针对这张卡所属的 Turing SM75 架构,本站开发了 caova…
-
Ubuntu22.04+4x2080Ti22G+vLLM+Qwen3.6-27B-AWQ-INT4 部署教程
本文记录了一次在 Ubuntu 22.04 环境下,使用 4 张 RTX 2080Ti 22G 显卡 部署 vLLM 推理服务 并运行 Qwen3.6-27B-AWQ-INT4 模…
-
在Ubuntu服务器4x2080ti(22G)上部署QwQ-32B + SGLang教程
在上一篇文章中,我们谈到了如何用vLLM推理框架来运行QwQ-32B模型,想了解详情的可以参考《在Ubuntu服务器4x2080ti(22G)上部署QwQ-32B + vLLM教程…
-
vLLM的参数列表及其中文说明
vLLM (Virtual Large Language Model) 是一款专为大语言模型推理加速而设计的框架,其依靠卓越的推理效率和资源优化能力在全球范围内引发广泛关注。来自加…
-
在Ubuntu服务器4x2080ti(22G)上部署QwQ-32B + vLLM教程
QwQ 是 Qwen 级数的推理模型。与传统的指令调优模型相比,能够思考和推理的 QwQ 可以在下游任务中实现显着增强的性能,尤其是难题。QwQ-32B 是中型推理模型,能够实现与…
-
4张定制版22G 2080ti 搭建AI服务器 用vllm框架跑Qwen1.5-110B模型非常丝滑!
操作系统和显卡/nvlink 服务器的系统采用Ubuntu22.04 显卡驱动选择“使用 NVIDIA driver metapackage 来自 nvidia-driver-53…