vllm

人工智能

在Ubuntu服务器4x2080ti(22G)上部署QwQ-32B + SGLang教程

在上一篇文章中，我们谈到了如何用vLLM推理框架来运行QwQ-32B模型，想了解详情的可以参考《在Ubuntu服务器4x2080ti(22G)上部署QwQ-32B + vLLM教程…

朋远方
2025年3月13日
002.0K1
人工智能

vLLM的参数列表及其中文说明

vLLM (Virtual Large Language Model) 是一款专为大语言模型推理加速而设计的框架，其依靠卓越的推理效率和资源优化能力在全球范围内引发广泛关注。来自加…

朋远方
2025年3月12日
002.5K0
人工智能

在Ubuntu服务器4x2080ti(22G)上部署QwQ-32B + vLLM教程

QwQ 是 Qwen 级数的推理模型。与传统的指令调优模型相比，能够思考和推理的 QwQ 可以在下游任务中实现显着增强的性能，尤其是难题。QwQ-32B 是中型推理模型，能够实现与…

朋远方
2025年3月8日
022.8K2
自然语言处理

4张定制版22G 2080ti 搭建AI服务器用vllm框架跑Qwen1.5-110B模型非常丝滑！

操作系统和显卡/nvlink 服务器的系统采用Ubuntu22.04 显卡驱动选择“使用 NVIDIA driver metapackage 来自 nvidia-driver-53…

朋远方
2024年6月6日
029310