vllm让LLM的本地推理速度坐上火箭!| 以Qwen1.5-14B为例

修改config.json文件

用记事本打开config.json,在“llmModels”下面添加如下的内容:

 {
"model": "/mnt/m/LLM/Qwen1.5-14B-Chat-GPTQ-Int4",
"name": "Qwen1.5-14B-Chat-GPTQ-Int4",
"maxContext": 32000,
"maxResponse": 5000,
"quoteMaxToken": 8192,
"maxTemperature": 1.2,
"charsPointsPrice": 0,
"censor": false,
"vision": false,
"datasetProcess": true,
"usedInClassify": true,
"usedInExtractFields": true,
"usedInToolCall": true,
"usedInQueryExtension": true,
"toolChoice": true,
"functionCall": false,
"customCQPrompt": "",
"customExtractPrompt": "",
"defaultSystemChatPrompt": "",
"defaultConfig": {}
},

这里的name一定要与oneapi中设置的模型名称一致!

vllm让LLM的本地推理速度坐上火箭!| 以Qwen1.5-14B为例

修改完成之后保存文件,从fastgpt文件夹的路径栏输入“cmd”打开一个新的cmd窗口,执行如下两行命令

docker-compose pull
docker-compose up -d

在FastGPT中调用Qwen1.5-14B

可以根据下面的截图中的操作,体验vllm加持下的Qwen1.5-14B的推理速度有多快!!

原创文章,作者:朋远方,如若转载,请注明出处:https://caovan.com/vllmrangqwen15-14bdetuilisuduzuoshanghuojian/.html

(2)
打赏 微信扫一扫 微信扫一扫
朋远方的头像朋远方
上一篇 2024年3月19日 上午2:09
下一篇 2024年3月21日 上午8:56

相关推荐

发表回复

登录后才能评论