内存通道数（或者内存带宽）对大模型推理的影响

manyhn 发表于 2025-3-16 11:50

想了解下在70b规模下的量化模型，在采用CPU offload下，内存带宽对推理速度影响如何。

比如我测过qwen/qwq 32b awq，vllm限制上下文60000左右前提下，CPU offload需要20多GB内存。这样虽然能跑，但吞吐量只有0.8t/s附近。如果换成qwen vl 2.5 72b awq，同样限制上下文为30000附近，吞吐量只有0.3t/s附近。这样完全没有可用性。（显卡PCIe 5.0x16，内存DDR5双通道）

相对的qwq如果限制上下文为8k，关闭cpu offload也能跑，这个时候吞吐能到40+ t/s。

如果把整个平台换成工作站或者epyc的平台，例如上9004/9005的12通道内存，用同样的CPU offload方式是否推理速度会大幅度上升？

manyhn 发表于 2025-3-16 11:52

对了，因为平时还是有一些游戏需求，不过只考虑3A，能满足100帧+就好。。。所以如果换成epyc，会不会游戏完全不行了？

页: [1]

Chiphell - 分享与交流用户体验's Archiver

内存通道数（或者内存带宽）对大模型推理的影响