4 x 2080Ti 22G Ubuntu服务器部署大语言模型+企业知识库的最优方案

朋远方 • 2025年3月3日上午12:07 • 人工智能, 学习笔记, 自然语言处理 • 阅读 19

经过反复试验测试，在四张22G的2080Ti Ubuntu操作系统的服务器上，部署企业知识库的最优方案如下：

Xinference + MaxKB或RAGFlow + Open-Webui

Xinference和Open-Webui都可以通过conda的虚拟环境来安装；

MaxKB和RAGFlow需要通过docker来安装；

交付给企业客户的一般是MaxKB或者RAGFlow，而Xinference可以在后台为MaxKB和RAGFlow提供向量模型（jina-embeddings-v3）和重排模型（bge-reranker-v2-m3）

当然如果偷懒的方法还可以从Xinference同时提供大语言模型deepseek-r1的32B或者32B的量化版，但是经过实际测试发现Xinference部署的deepseek-r1 32B和32B的量化版模型都会有一个问题，就是丢失<think>，导致客户使用MaxKB或者open-webui的时候，无法在web页面正常显示思考的内容，所以不建议这么做；

因此，我单独用vllm运行了一个DeepSeek-R1-Distill-Qwen-32B的模型（32768的len、10并发、大约14-20tokens/秒），并且通过oneapi来对MaxKB和RAGFlow以及open-webui提供Openai的兼容API；

由于4张22G的2080Ti显卡在运行FP16的DeepSeek-R1-Distill-Qwen-32B模型，几乎用完了所有的显存，因此，Xinference中的向量模型（jina-embeddings-v3）和重排模型（bge-reranker-v2-m3）必须用CPU来运行，不过型号这两个模型都比较小，CPU运行完全没有问题！

上述方案可以满足一个小型企业的日常使用！

原创文章，作者：朋远方，如若转载，请注明出处：https://caovan.com/4-x-2080ti-22g-ubuntufuwuqibushudayuyanmoxingqiyezhishikudezuiyoufangan/.html

deepseek MaxKB oneapi Open webui RAGFlow ubuntu服务器 Xinference 企业知识库

赞 (0)

打赏

微信扫一扫

0 0

在Ubuntu服务器部署Open-webui

在Ubuntu服务器部署Open-webui

上一篇 2025年3月2日下午10:36

在Ubuntu服务器4x2080ti(22G)上部署QwQ-32B + vLLM教程

在Ubuntu服务器4x2080ti(22G)上部署QwQ-32B + vLLM教程

下一篇 2025年3月8日下午10:40

学习笔记

在Ubuntu22.04.4安装gcc-12

036.7K0

朋远方
2024年6月3日
学习笔记

03.用于数据科学的 Python 基础知识之matplotlib（中）

001.9K0

朋远方
2022年11月13日
AI绘画

使用Forge中的SDXL和Fooocus修复模型进行outpaint

063.6K0

朋远方
2024年3月21日
人工智能

MiniCPM-Llama3-V 2.5 一个可以在手机端运行的开源多模态LLM | 性能强过GPT-4V

011.9K0

朋远方
2024年5月24日
AI绘画

AnimateDiff+LCM实现stable diffusion生成视频几何级提速

115.2K0

朋远方
2023年12月5日
AI绘画

VideoReTalking对嘴型AI工具windows本地部署教程

01534.4K0

朋远方
2023年9月10日

发表回复

登录后才能评论