找回密码
 加入我们
搜索
      
查看: 764|回复: 4

[显卡] 求教多显卡跑模型的利用率问题

[复制链接]
发表于 2025-3-10 15:07 | 显示全部楼层 |阅读模式
小公司,内部想尝试大模型提高效率以及本地的文档库。
目前配置:
thinkstation px,2cpu 128gb内存 4张4090
用ollama部署的,因为最早是一张卡,后来3张卡,最后才加到4张卡的。
一张卡的时候,除了显存占用外,gpu一直能跑到98%左右,当时尝试的是7b模型。
后来加到3张卡,跑32b模型,发现除了正常的显存占用外,gpu利用率一直在33%上下,加起来刚好100% ……
以为是ollama的问题,想改vllm,结果有注意力头的问题,3张显卡不行,于是作罢。
后来因为并发和最大token问题加到4张卡了,结果跑起来以后,4张显卡平均使用率25%左右了,加起来又是100%……
我说的是计算,并不是显存,显存都是正常的,完全加载到显存的,32b fp16跑起来占用80多gb显存。

想问问这是ollama的问题么?还是因为没有nvlink都是通过pcie通信的问题导致计算效率低?输出token数3张4张都一样……
发表于 2025-3-10 17:55 来自手机 | 显示全部楼层
Ollama就这卵样
发表于 2025-3-10 18:22 | 显示全部楼层
ollama问题,ollama只能流水线并行,你搞几张张卡,它都是一张一张运行,一张卡工作时,另外的全部闲置。自然快不了。

想多卡有提升,得张量并行或数据并行。可以换vllm框架运行。

 楼主| 发表于 2025-3-10 20:07 | 显示全部楼层

多谢回答~看来还是得改成vllm
 楼主| 发表于 2025-3-10 20:12 | 显示全部楼层
uprit 发表于 2025-3-10 18:22
ollama问题,ollama只能流水线并行,你搞几张张卡,它都是一张一张运行,一张卡工作时,另外的全部闲置。自 ...

之前是3张卡跑了一段时间,deepseek蒸馏的模型在ollama上都不支持3卡运行……
不过nvidia-smi看的话,4张卡一直保持25%左右使用率哎,好像一直在出力的样子
等空点了,我去改成vllm
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-21 10:24 , Processed in 0.007761 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表