4 x 2080Ti 22G Ubuntu服务器部署大语言模型+企业知识库的最优方案

经过反复试验测试,在四张22G的2080Ti Ubuntu操作系统的服务器上,部署企业知识库的最优方案如下:

Xinference + MaxKBRAGFlow + Open-Webui

Xinference和Open-Webui都可以通过conda的虚拟环境来安装;

MaxKB和RAGFlow需要通过docker来安装;

交付给企业客户的一般是MaxKB或者RAGFlow,而Xinference可以在后台为MaxKB和RAGFlow提供向量模型(jina-embeddings-v3)和重排模型(bge-reranker-v2-m3)

当然如果偷懒的方法还可以从Xinference同时提供大语言模型deepseek-r1的32B或者32B的量化版,但是经过实际测试发现Xinference部署的deepseek-r1 32B和32B的量化版模型都会有一个问题,就是丢失<think>,导致客户使用MaxKB或者open-webui的时候,无法在web页面正常显示思考的内容,所以不建议这么做;

因此,我单独用vllm运行了一个DeepSeek-R1-Distill-Qwen-32B的模型(32768的len、10并发、大约14-20tokens/秒),并且通过oneapi来对MaxKB和RAGFlow以及open-webui提供Openai的兼容API;

由于4张22G的2080Ti显卡在运行FP16的DeepSeek-R1-Distill-Qwen-32B模型,几乎用完了所有的显存,因此,Xinference中的向量模型(jina-embeddings-v3)和重排模型(bge-reranker-v2-m3)必须用CPU来运行,不过型号这两个模型都比较小,CPU运行完全没有问题!

上述方案可以满足一个小型企业的日常使用!

4 x 2080Ti 22G Ubuntu服务器部署大语言模型+企业知识库的最优方案

原创文章,作者:朋远方,如若转载,请注明出处:https://caovan.com/4-x-2080ti-22g-ubuntufuwuqibushudayuyanmoxingqiyezhishikudezuiyoufangan/.html

Like (0)
Donate 微信扫一扫 微信扫一扫
朋远方的头像朋远方
Previous 2025年3月2日 下午10:36
Next 2025年3月8日 下午10:40

相关推荐

发表回复

Please Login to Comment