搞了2片测了一下,vllm上32b模型awq量化 单线可以跑到25~30t/s,并发一测就oom,散热得改,轻量化用用还行 ...
两片也不如2080ti 22g么,不过胜在单槽了 32g才是生产力起步价啊,2*16也不是不行 fr1986 发表于 2025-3-17 20:36
两片也不如2080ti 22g么,不过胜在单槽了
这要看你怎么用这卡了,如果是跑32b模型 宁愿选2080ti22G单片去跑,T10被动散热 过了90度降频掉驱动都有可能的,不好使,win下驱动也是个问题 搭配消费n卡更是难用!不如 2080ti省心显存量还足。 sun3797 发表于 2025-3-17 20:34
搞了2片测了一下,vllm上32b模型awq量化 单线可以跑到25~30t/s,并发一测就oom,散热得改,轻量化用用还行 ...
用**q量化格式的模型试试 sun3797 发表于 2025-3-17 20:47
这要看你怎么用这卡了,如果是跑32b模型 宁愿选2080ti22G单片去跑,T10被动散热 过了90度降频掉驱动都有 ...
单槽你只能上暴力扇,还是改2槽2080ti的散热器吧 我是不来晚了,好价已经没了 q3again0605 发表于 2025-3-17 21:10
用**q量化格式的模型试试
**Q吗,感觉和awq没什么差别,理论awq会更快 q3again0605 发表于 2025-3-17 21:11
单槽你只能上暴力扇,还是改2槽2080ti的散热器吧
为了跑vllm改了双槽涡轮,3060ti散热器 sun3797 发表于 2025-3-17 21:21
**Q吗,感觉和awq没什么差别,理论awq会更快
我压测和并发都没什么问题,4,5个还是可以的,只是都顶着功耗墙了,频率很多时候没有跑满。 本帖最后由 q3again0605 于 2025-3-17 21:54 编辑
q3again0605 发表于 2025-3-17 21:40
我压测和并发都没什么问题,4,5个还是可以的,只是都顶着功耗墙了,频率很多时候没有跑满。 ...
我改的2080ti的没问题啊,65摄氏度到头了。想起来了,我只是单卡测试,另外一张还没一起。
页:
1
[2]