vllm让LLM的本地推理速度坐上火箭!| 以Qwen1.5-14B为例

在上一篇文章中,我们讲解了如何将本地部署的Qwen1.5-14B模型导入FastGPT,感兴趣的可以查阅《Windows+WSL+Docker Desktop+FastGPT+m3e+oneapi+Qwen-14B部署本地AI知识库》,不过这种方式有一个缺点,就是推理速度较慢!今天我们讲解的这个方法可以让Qwen1.5-14B模型的推理速度坐上火箭!简直不要太快!

我们可以比较下这两种方式的速度,第一种方式推理速度第一句话用了6.05秒,而第二种vllm的方式第一句话只用了1.55秒!

下面我们开始讲解完整的操作步骤!

wsl-ubuntu安装 CUDA Toolkit 12.2

cuda toolkit 12.2官方下载地址:https://developer.nvidia.com/cuda-12-2-0-download-archive

vllm让LLM的本地推理速度坐上火箭!| 以Qwen1.5-14B为例

我们首先打开一个cmd的命令窗口,输入“wsl”命令,进入到wsl的命令窗口界面,首先运行下面的这行命令:

sudo apt install gcc

vllm让LLM的本地推理速度坐上火箭!| 以Qwen1.5-14B为例

然后我就运行下面的两行命令(即从cuda网页获得的两行命令)

wget https://developer.download.nvidia.com/compute/cuda/12.2.0/local_installers/cuda_12.2.0_535.54.03_linux.run
sudo sh cuda_12.2.0_535.54.03_linux.run

中途需要你输入“accept”确认安装

vllm让LLM的本地推理速度坐上火箭!| 以Qwen1.5-14B为例

接下来用键盘的上下键将光标移动到最后的“Install”

vllm让LLM的本地推理速度坐上火箭!| 以Qwen1.5-14B为例

等待安装完成,我们就可以进入到下一步了!

安装miniconda

这是一个可以一站式部署Python环境的程序,和windows中的Anaconda差不多!

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh

vllm让LLM的本地推理速度坐上火箭!| 以Qwen1.5-14B为例

第二行命令输入之后,要一直按着“Enter”键阅读完它全部的license,知道出现了提示输入“yes”和“no”的输入框提示

vllm让LLM的本地推理速度坐上火箭!| 以Qwen1.5-14B为例

我们直接输入“yes”进行确认!然后会然我们选择安装的路径,一般情况下我们直接按“Enter”键确认即可!

vllm让LLM的本地推理速度坐上火箭!| 以Qwen1.5-14B为例

询问是否要初始化,直接输入“yes”确认

vllm让LLM的本地推理速度坐上火箭!| 以Qwen1.5-14B为例

看到下面的“Thank you…”就标志着安装完成了!

vllm让LLM的本地推理速度坐上火箭!| 以Qwen1.5-14B为例

原创文章,作者:朋远方,如若转载,请注明出处:https://caovan.com/vllmrangqwen15-14bdetuilisuduzuoshanghuojian/.html

(3)
打赏 微信扫一扫 微信扫一扫
朋远方的头像朋远方
上一篇 2024年3月19日 上午2:09
下一篇 2024年3月21日 上午8:56

相关推荐

发表回复

登录后才能评论