新年第一船 tesla T10 16g没啥人讨论吗 - 第2页 - 电脑讨论(新) - Chiphell - 分享与交流用户体验

lqf3dnow 发表于 2025-3-4 16:20

我们单位用一台服务器装了8块P4卡，跑Deepseek慢得一逼，只有14b的模型速度还勉强接受，70b的问你好都能卡三分钟

LY文库 发表于 2025-3-17 20:19

这个Tesla T10显卡的FP16被砍了不知道int8是不是也同步被砍了

sun3797 发表于 2025-3-17 20:34

搞了2片测了一下，vllm上32b模型awq量化单线可以跑到25~30t/s，并发一测就oom[无奈]，散热得改，轻量化用用还行，ollama上效率更低15t/s就不错了，不过比起2080ti还是弱了点显存有点鸡肋

fr1986 发表于 2025-3-17 20:36

sun3797 发表于 2025-3-17 20:34
搞了2片测了一下，vllm上32b模型awq量化单线可以跑到25~30t/s，并发一测就oom，散热得改，轻量化用用还行 ...

两片也不如2080ti 22g么，不过胜在单槽了

herbertyang 发表于 2025-3-17 20:43

32g才是生产力起步价啊，2*16也不是不行

sun3797 发表于 2025-3-17 20:47

fr1986 发表于 2025-3-17 20:36
两片也不如2080ti 22g么，不过胜在单槽了

这要看你怎么用这卡了，如果是跑32b模型宁愿选2080ti22G单片去跑，T10被动散热过了90度降频掉驱动都有可能的，不好使，win下驱动也是个问题搭配消费n卡更是难用！不如 2080ti省心显存量还足。

q3again0605 发表于 2025-3-17 21:10

sun3797 发表于 2025-3-17 20:34
搞了2片测了一下，vllm上32b模型awq量化单线可以跑到25~30t/s，并发一测就oom，散热得改，轻量化用用还行 ...

用**q量化格式的模型试试

q3again0605 发表于 2025-3-17 21:11

sun3797 发表于 2025-3-17 20:47
这要看你怎么用这卡了，如果是跑32b模型宁愿选2080ti22G单片去跑，T10被动散热过了90度降频掉驱动都有 ...

单槽你只能上暴力扇，还是改2槽2080ti的散热器吧

moweiraul 发表于 2025-3-17 21:14

我是不来晚了，好价已经没了

sun3797 发表于 2025-3-17 21:21

q3again0605 发表于 2025-3-17 21:10
用**q量化格式的模型试试

**Q吗，感觉和awq没什么差别，理论awq会更快

sun3797 发表于 2025-3-17 21:24

q3again0605 发表于 2025-3-17 21:11
单槽你只能上暴力扇，还是改2槽2080ti的散热器吧

为了跑vllm改了双槽涡轮，3060ti散热器

q3again0605 发表于 2025-3-17 21:40

sun3797 发表于 2025-3-17 21:21
**Q吗，感觉和awq没什么差别，理论awq会更快

我压测和并发都没什么问题，4,5个还是可以的，只是都顶着功耗墙了，频率很多时候没有跑满。

q3again0605 发表于 2025-3-17 21:41

本帖最后由 q3again0605 于 2025-3-17 21:54 编辑

q3again0605 发表于 2025-3-17 21:40
我压测和并发都没什么问题，4,5个还是可以的，只是都顶着功耗墙了，频率很多时候没有跑满。 ...

我改的2080ti的没问题啊，65摄氏度到头了。想起来了，我只是单卡测试，另外一张还没一起。

页: 1 [2]

Chiphell - 分享与交流用户体验's Archiver