流浪的疾风 发表于 2025-3-10 15:07

求教多显卡跑模型的利用率问题

小公司,内部想尝试大模型提高效率以及本地的文档库。
目前配置:
thinkstation px,2cpu 128gb内存 4张4090
用ollama部署的,因为最早是一张卡,后来3张卡,最后才加到4张卡的。
一张卡的时候,除了显存占用外,gpu一直能跑到98%左右,当时尝试的是7b模型。
后来加到3张卡,跑32b模型,发现除了正常的显存占用外,gpu利用率一直在33%上下,加起来刚好100% ……
以为是ollama的问题,想改vllm,结果有注意力头的问题,3张显卡不行,于是作罢。
后来因为并发和最大token问题加到4张卡了,结果跑起来以后,4张显卡平均使用率25%左右了,加起来又是100%……
我说的是计算,并不是显存,显存都是正常的,完全加载到显存的,32b fp16跑起来占用80多gb显存。

想问问这是ollama的问题么?还是因为没有nvlink都是通过pcie通信的问题导致计算效率低?输出token数3张4张都一样……

YsHaNg 发表于 2025-3-10 17:55

Ollama就这卵样

uprit 发表于 2025-3-10 18:22

ollama问题,ollama只能流水线并行,你搞几张张卡,它都是一张一张运行,一张卡工作时,另外的全部闲置。自然快不了。

想多卡有提升,得张量并行或数据并行。可以换vllm框架运行。

流浪的疾风 发表于 2025-3-10 20:07

YsHaNg 发表于 2025-3-10 17:55
Ollama就这卵样

多谢回答~看来还是得改成vllm

流浪的疾风 发表于 2025-3-10 20:12

uprit 发表于 2025-3-10 18:22
ollama问题,ollama只能流水线并行,你搞几张张卡,它都是一张一张运行,一张卡工作时,另外的全部闲置。自 ...

之前是3张卡跑了一段时间,deepseek蒸馏的模型在ollama上都不支持3卡运行……
不过nvidia-smi看的话,4张卡一直保持25%左右使用率哎,好像一直在出力的样子
等空点了,我去改成vllm
页: [1]
查看完整版本: 求教多显卡跑模型的利用率问题