求教多显卡跑模型的利用率问题

流浪的疾风 · 发表于 2025-3-10 15:07

小公司，内部想尝试大模型提高效率以及本地的文档库。
目前配置：
thinkstation px，2cpu 128gb内存 4张4090
用ollama部署的，因为最早是一张卡，后来3张卡，最后才加到4张卡的。
一张卡的时候，除了显存占用外，gpu一直能跑到98%左右，当时尝试的是7b模型。
后来加到3张卡，跑32b模型，发现除了正常的显存占用外，gpu利用率一直在33%上下，加起来刚好100% ……
以为是ollama的问题，想改vllm，结果有注意力头的问题，3张显卡不行，于是作罢。
后来因为并发和最大token问题加到4张卡了，结果跑起来以后，4张显卡平均使用率25%左右了，加起来又是100%……
我说的是计算，并不是显存，显存都是正常的，完全加载到显存的，32b fp16跑起来占用80多gb显存。

想问问这是ollama的问题么？还是因为没有nvlink都是通过pcie通信的问题导致计算效率低？输出token数3张4张都一样……

YsHaNg · 发表于 2025-3-10 17:55

Ollama就这卵样

uprit · 发表于 2025-3-10 18:22

ollama问题，ollama只能流水线并行，你搞几张张卡，它都是一张一张运行，一张卡工作时，另外的全部闲置。自然快不了。

想多卡有提升，得张量并行或数据并行。可以换vllm框架运行。

流浪的疾风 · 发表于 2025-3-10 20:07

YsHaNg 发表于 2025-3-10 17:55
Ollama就这卵样

多谢回答～看来还是得改成vllm

流浪的疾风 · 发表于 2025-3-10 20:12

uprit 发表于 2025-3-10 18:22
ollama问题，ollama只能流水线并行，你搞几张张卡，它都是一张一张运行，一张卡工作时，另外的全部闲置。自 ...

之前是3张卡跑了一段时间，deepseek蒸馏的模型在ollama上都不支持3卡运行……
不过nvidia-smi看的话，4张卡一直保持25%左右使用率哎，好像一直在出力的样子
等空点了，我去改成vllm

账号		自动登录	找回密码
密码			加入我们

[显卡] 求教多显卡跑模型的利用率问题

浏览过的版块