vllm让LLM的本地推理速度坐上火箭!| 以Qwen1.5-14B为例

创建和激活虚拟环境

激活conda模式

source ~/.bashrc

vllm让LLM的本地推理速度坐上火箭!| 以Qwen1.5-14B为例

vllm创建虚拟环境

conda create -n vllm python=3.9

中途需要我们输入“y”进行确认

vllm让LLM的本地推理速度坐上火箭!| 以Qwen1.5-14B为例

激活vllm虚拟环境

conda activate vllm

vllm让LLM的本地推理速度坐上火箭!| 以Qwen1.5-14B为例

安装2.1.2版本的pytorch

继续运行下面这行代码,安装2.1.2版本的pytorch

conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia

vllm让LLM的本地推理速度坐上火箭!| 以Qwen1.5-14B为例

中途也要经过一次确认,输入“y”

vllm让LLM的本地推理速度坐上火箭!| 以Qwen1.5-14B为例

等待安装完成,继续运行后面的步骤!

安装vllm

继续在虚拟环境中执行下面的代码:

pip install vllm

vllm让LLM的本地推理速度坐上火箭!| 以Qwen1.5-14B为例

安装NCCL(NVIDIA Collective Communications Library)库

安装与CUDA 12.x兼容的NCCL库,确保在使用CUDA进行加速计算时,可以利用NCCL提供的通信优化,运行下面这行代码

python -m cupyx.tools.install_library --library nccl --cuda 12.x

原创文章,作者:朋远方,如若转载,请注明出处:https://caovan.com/vllmrangqwen15-14bdetuilisuduzuoshanghuojian/.html

(2)
打赏 微信扫一扫 微信扫一扫
朋远方的头像朋远方
上一篇 2024年3月19日 上午2:09
下一篇 2024年3月21日 上午8:56

相关推荐

发表回复

登录后才能评论