找回密码
 加入我们
搜索
      
查看: 614|回复: 1

[内存] 内存通道数(或者内存带宽)对大模型推理的影响

[复制链接]
发表于 2025-3-16 11:50 | 显示全部楼层 |阅读模式
想了解下在70b规模下的量化模型,在采用CPU offload下,内存带宽对推理速度影响如何。


比如我测过qwen/qwq 32b awq,vllm限制上下文60000左右前提下,CPU offload需要20多GB内存。这样虽然能跑,但吞吐量只有0.8t/s附近。如果换成qwen vl 2.5 72b awq,同样限制上下文为30000附近,吞吐量只有0.3t/s附近。这样完全没有可用性。(显卡PCIe 5.0x16, 内存DDR5双通道)

相对的qwq如果限制上下文为8k,关闭cpu offload也能跑,这个时候吞吐能到40+ t/s。

如果把整个平台换成工作站或者epyc的平台,例如上9004/9005的12通道内存,用同样的CPU offload方式是否推理速度会大幅度上升?
 楼主| 发表于 2025-3-16 11:52 | 显示全部楼层
对了,因为平时还是有一些游戏需求,不过只考虑3A,能满足100帧+就好。。。所以如果换成epyc,会不会游戏完全不行了?
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-21 06:28 , Processed in 0.007168 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表