找回密码
 加入我们
搜索
      
查看: 2460|回复: 15

[软件] 今天成功安装了vllm

[复制链接]
发表于 2025-3-2 15:06 | 显示全部楼层 |阅读模式
1.Intel® Extension for PyTorch* Installation Guide
网址:https://pytorch-extension.intel. ... sl2&package=pip
python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu
python -m pip install intel-extension-for-pytorch
python -m pip install oneccl_bind_pt --extra-index-url https://pytorch-extension.intel.com/release-whl/stable/cpu/us/
2.安装vllm
网址:https://docs.vllm.ai/en/latest/g ... tion/cpu/index.html
Capture.PNG

3.开始执行
Capture.PNG
Capture.PNG
发表于 2025-3-2 19:25 来自手机 | 显示全部楼层
docker run --runtime nvidia --gpus all \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HUGGING_FACE_HUB_TOKEN=<secret>" \
    -p 8000:8000 \
    --ipc=host \
    vllm/vllm-openai:latest \
发表于 2025-3-2 19:43 | 显示全部楼层
这也太麻烦了,喜欢命令行用OLLAMA,喜欢有界面用LM STUDIO不好么
发表于 2025-3-2 20:49 | 显示全部楼层
vllm才能发挥出硬件的实力,ollama和LMS也只能单用户轻量化用用,多卡并发还得看vllm~~
发表于 2025-3-2 20:58 来自手机 | 显示全部楼层
怕烦,实体安装steam不成,游戏也就算了吧
 楼主| 发表于 2025-3-2 21:31 | 显示全部楼层
YsHaNg 发表于 2025-3-2 19:25
docker run --runtime nvidia --gpus all \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
     ...

下次再试试清华方案
 楼主| 发表于 2025-3-2 21:34 | 显示全部楼层
sun3797 发表于 2025-3-2 20:49
vllm才能发挥出硬件的实力,ollama和LMS也只能单用户轻量化用用,多卡并发还得看vllm~~ ...

就是想看看能有多快
 楼主| 发表于 2025-3-2 21:34 | 显示全部楼层
hcym 发表于 2025-3-2 20:58
怕烦,实体安装steam不成,游戏也就算了吧

搞个ladder
发表于 2025-3-2 21:40 | 显示全部楼层
昨天刚装了一台志强6338+256GbRAM+H100x2 的服务器,用vllm 跑Qwen 72b,和玩单卡完全是两码事,踩了很多坑
发表于 2025-3-2 22:11 来自手机 | 显示全部楼层
xysquare 发表于 2025-3-2 11:43
这也太麻烦了,喜欢命令行用OLLAMA,喜欢有界面用LM STUDIO不好么

市面上开源推理框架现在只有vllm实现了FlashMLA 用web前端http方式各种ollama/llama.cpp/transformers都能接入gui
发表于 2025-3-3 04:25 | 显示全部楼层
这个是编译了一个Intel 专用的扩展版本吧? 还是CPU计算的。
发表于 2025-3-3 09:26 | 显示全部楼层
本帖最后由 KimmyGLM 于 2025-3-3 09:27 编辑

llama.cpp VLLM安装都算简单友好的;

KTransformers 装起来才要命,配套的环境要严格匹配,编译一直出错;
V0.3 更像是一个课题组搞的测试,自己跑通即可,不用管其他部署起来好不好用;
我都快被折磨得抑郁了,他们自己的docker 还没适配0.3
issue里面一大堆稀奇古怪的问题,哎;
 楼主| 发表于 2025-3-3 18:40 | 显示全部楼层
iwaitu 发表于 2025-3-2 21:40
昨天刚装了一台志强6338+256GbRAM+H100x2 的服务器,用vllm 跑Qwen 72b,和玩单卡完全是两码事,踩了很多坑 ...

H100?? 就是NB
 楼主| 发表于 2025-3-3 18:41 | 显示全部楼层
gyc 发表于 2025-3-3 04:25
这个是编译了一个Intel 专用的扩展版本吧? 还是CPU计算的。

对,针对intel cpu优化的,已经编译好的,安装就行
 楼主| 发表于 2025-3-3 18:42 | 显示全部楼层
KimmyGLM 发表于 2025-3-3 09:26
llama.cpp VLLM安装都算简单友好的;

KTransformers 装起来才要命,配套的环境要严格匹配,编译一直出错; ...


我去,我还没开始呢,看看吧,真麻烦就不装了。
早点的版本还好吧?
发表于 2025-3-9 14:36 | 显示全部楼层

微信图片_20250309143510.jpg

其中一块H100回来两天就出问题了,拿去退换了
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-21 10:28 , Processed in 0.010809 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表