内存通道数(或者内存带宽)对大模型推理的影响
想了解下在70b规模下的量化模型,在采用CPU offload下,内存带宽对推理速度影响如何。比如我测过qwen/qwq 32b awq,vllm限制上下文60000左右前提下,CPU offload需要20多GB内存。这样虽然能跑,但吞吐量只有0.8t/s附近。如果换成qwen vl 2.5 72b awq,同样限制上下文为30000附近,吞吐量只有0.3t/s附近。这样完全没有可用性。(显卡PCIe 5.0x16, 内存DDR5双通道)
相对的qwq如果限制上下文为8k,关闭cpu offload也能跑,这个时候吞吐能到40+ t/s。
如果把整个平台换成工作站或者epyc的平台,例如上9004/9005的12通道内存,用同样的CPU offload方式是否推理速度会大幅度上升? 对了,因为平时还是有一些游戏需求,不过只考虑3A,能满足100帧+就好。。。所以如果换成epyc,会不会游戏完全不行了?
页:
[1]