人工智能
-
在Ubuntu服务器4x2080ti(22G)上部署QwQ-32B + SGLang教程
在上一篇文章中,我们谈到了如何用vLLM推理框架来运行QwQ-32B模型,想了解详情的可以参考《在Ubuntu服务器4x2080ti(22G)上部署QwQ-32B + vLLM教程…
-
vLLM的参数列表及其中文说明
vLLM (Virtual Large Language Model) 是一款专为大语言模型推理加速而设计的框架,其依靠卓越的推理效率和资源优化能力在全球范围内引发广泛关注。来自加…
-
在Ubuntu服务器4x2080ti(22G)上部署QwQ-32B + vLLM教程
QwQ 是 Qwen 级数的推理模型。与传统的指令调优模型相比,能够思考和推理的 QwQ 可以在下游任务中实现显着增强的性能,尤其是难题。QwQ-32B 是中型推理模型,能够实现与…
-
在Ubuntu服务器部署Open-webui
open-webUI 是一款类似于chatgpt的webui程序, 可以私有化模型本地部署,可以实现 多模态AI聊天 , AI 翻译 , AI搜索,语音转文本, 文本转语音, 文生…
-
Ubuntu服务器Xinference的部署流程
Xorbits Inference(Xinference)是一个性能强大且功能全面的分布式推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xo…
-
Ubuntu服务器RAGFlow的部署流程
相比较MaxKB而言,RAGFlow的部署过程可谓是复杂得多!如果你图简单地话,可以直接移步到《Ubuntu服务器MaxKB的部署流程》这篇文章! 升级和安装相关的依赖 操作系统更…
-
Ubuntu服务器MaxKB的部署流程
MaxKB = Max Knowledge Base,是一款基于大语言模型和 RAG 的开源知识库问答系统,广泛应用于智能客服、企业内部知识库、学术研究与教育等场景。 本教程以Ub…
-
在Ubuntu服务器上编译部署llama.cpp+open-webui运行deepseek-r1 670B 1.58bit动态量化版
☞☞☞ 定制同款Ubuntu服务器 ☜☜☜ ☞☞☞ 定制同款Ubuntu服务器 ☜☜☜ 第一步:编译安装llama 安装依赖服务 必选安装 apt-get update apt-g…
-
DeepSeek模型和硬件配置对照表
PCIe、NVLink、NVSwitch技术对比 特性 PCIe NVLink NVSwitch 主要用途 通用互联接口,连接 GPU、CPU、SSD 等设备 NVIDIA GPU…
-
在4卡2080Ti 22G的Ubuntu服务器上流畅运行DeepSeek-R1-Distill-Qwen-32B
操作系统版本:Ubuntu 22.04 显卡类型:4 x 2080Ti 22G 魔改版 CUDA版本:12.4 模型下载地址:https://modelscope.cn/model…