vllm让LLM的本地推理速度坐上火箭!| 以Qwen1.5-14B为例

启动api服务

下载权重文件

我们首先要将权重文件夹整个下载到本地任意位置,根据你自己的网络情况任意选择一个下载地址!

Qwen1.5-14B-Chat-GPTQ-Int4

魔塔下载地址:https://modelscope.cn/models/qwen/Qwen1.5-14B-Chat-GPTQ-Int4/files/

huggingface下载地址:https://huggingface.co/Qwen/Qwen1.5-14B-Chat-GPTQ-Int4/tree/main

vllm让LLM的本地推理速度坐上火箭!| 以Qwen1.5-14B为例

配置启动参数

单卡24G的配置

python -m vllm.entrypoints.openai.api_server \
--model /mnt/m/LLM/Qwen1.5-14B-Chat-GPTQ-Int4 \
--tokenizer /mnt/m/LLM/Qwen1.5-14B-Chat-GPTQ-Int4 \
--max-model-len 8192 \
--quantization gptq \
--gpu-memory-utilization 0.9

其中的“m/LLM/Qwen1.5-14B-Chat-GPTQ-Int4”路径修改为你自己实际的路径,不过记得要写成linux的路径形式,而不要直接复制windows下的路径!我这里的“m”指的就是M盘,LLM指的是M盘下面的LLM文件夹!你根据这样的规律拼接自己实际的路径!

双卡24G*2配置

python -m vllm.entrypoints.openai.api_server \
--model /mnt/m/LLM/Qwen1.5-14B-Chat-GPTQ-Int4 \
--tokenizer /mnt/m/LLM/Qwen1.5-14B-Chat-GPTQ-Int4 \
--max-model-len 8192 \
--tensor-parallel-size 2 \
--gpu-memory-utilization 0.9

双卡Qwen1.5-14B全量

python -m vllm.entrypoints.openai.api_server \
--model /mnt/m/LLM/Qwen1.5-14B-Chat \
--tokenizer /mnt/m/LLM/Qwen1.5-14B-Chat \
--max-model-len 8192 \
--tensor-parallel-size 2 \
--gpu-memory-utilization 0.9

双卡Qwen1.5-72B-gptq-int4

python -m vllm.entrypoints.openai.api_server \
--model /mnt/m/LLM/Qwen1.5-72B-Chat-GPTQ-Int4 \
--tokenizer /mnt/m/LLM/Qwen1.5-72B-Chat-GPTQ-Int4 \
--max-model-len 2048 \
--tensor-parallel-size 2 \
--gpu-memory-utilization 1 \
--quantization gptq \
--enforce-eager

双卡Yi-34b-int8

python -m vllm.entrypoints.openai.api_server \
--model /mnt/m/LLM/Yi-34B-Chat-8bits \
--tokenizer /mnt/m/LLM/Yi-34B-Chat-8bits \
--max-model-len 4096 \
--tensor-parallel-size 2 \
--gpu-memory-utilization 0.9 \
--quantization gptq

双卡Internlm2-chat-20B全量

python -m vllm.entrypoints.openai.api_server \
--model /mnt/m/LLM/internlm2-chat-20b \
--tokenizer /mnt/m/LLM/internlm2-chat-20b \
--max-model-len 8192 \
--tensor-parallel-size 2 \
--gpu-memory-utilization 0.9 \
--trust-remote-code

注意我这里的模型路径都是本地路径,你必须提前将模型文件夹全部都下载到本地,然后修改为你自己实际的路径!!!!

–max-model-len 8192 \这里指定了大模型的最大上下文长度,显存大可以调高些,参数比较大的模型,建议调小一点!

–tensor-parallel-size 2 \这个参数指定了使用本地多少张显卡,本地是2张就填2,如果你有4张显卡/8张显卡,根据实际的数量填写!

–gpu-memory-utilization 0.9 这个参数用于设置模型执行程序的GPU利用率,范围为 0 到 1,0.5 表示 GPU 内存利用率为 50%。如果未指定,将使用默认值 0.9。

启动api

当上面的参数配置的代码都输入进去之后,回车就可以启动api服务!

vllm让LLM的本地推理速度坐上火箭!| 以Qwen1.5-14B为例

api服务启动后,是这样的状态!自动在8000端口!

oneapi增加一个新的渠道

根据下面的截图,填写相关的参数!

vllm让LLM的本地推理速度坐上火箭!| 以Qwen1.5-14B为例

回到渠道主页,测试刚刚新增的渠道是否成功!如果显示“测试成功”则说明参数设置没有问题!

vllm让LLM的本地推理速度坐上火箭!| 以Qwen1.5-14B为例

原创文章,作者:朋远方,如若转载,请注明出处:https://caovan.com/vllmrangqwen15-14bdetuilisuduzuoshanghuojian/.html

(2)
打赏 微信扫一扫 微信扫一扫
朋远方的头像朋远方
上一篇 2024年3月19日 上午2:09
下一篇 2024年3月21日 上午8:56

相关推荐

发表回复

登录后才能评论