lqf3dnow 发表于 2025-3-4 16:20

我们单位用一台服务器装了8块P4卡,跑Deepseek慢得一逼,只有14b的模型速度还勉强接受,70b的问你好都能卡三分钟

LY文库 发表于 2025-3-17 20:19

这个Tesla T10显卡的FP16被砍了不知道int8是不是也同步被砍了

sun3797 发表于 2025-3-17 20:34

搞了2片测了一下,vllm上32b模型awq量化 单线可以跑到25~30t/s,并发一测就oom[无奈],散热得改,轻量化用用还行,ollama上效率更低15t/s就不错了,不过比起2080ti还是弱了点 显存有点鸡肋

fr1986 发表于 2025-3-17 20:36

sun3797 发表于 2025-3-17 20:34
搞了2片测了一下,vllm上32b模型awq量化 单线可以跑到25~30t/s,并发一测就oom,散热得改,轻量化用用还行 ...

两片也不如2080ti 22g么,不过胜在单槽了

herbertyang 发表于 2025-3-17 20:43

32g才是生产力起步价啊,2*16也不是不行

sun3797 发表于 2025-3-17 20:47

fr1986 发表于 2025-3-17 20:36
两片也不如2080ti 22g么,不过胜在单槽了

这要看你怎么用这卡了,如果是跑32b模型 宁愿选2080ti22G单片去跑,T10被动散热 过了90度降频掉驱动都有可能的,不好使,win下驱动也是个问题 搭配消费n卡更是难用!不如 2080ti省心显存量还足。

q3again0605 发表于 2025-3-17 21:10

sun3797 发表于 2025-3-17 20:34
搞了2片测了一下,vllm上32b模型awq量化 单线可以跑到25~30t/s,并发一测就oom,散热得改,轻量化用用还行 ...

用**q量化格式的模型试试

q3again0605 发表于 2025-3-17 21:11

sun3797 发表于 2025-3-17 20:47
这要看你怎么用这卡了,如果是跑32b模型 宁愿选2080ti22G单片去跑,T10被动散热 过了90度降频掉驱动都有 ...

单槽你只能上暴力扇,还是改2槽2080ti的散热器吧

moweiraul 发表于 2025-3-17 21:14

我是不来晚了,好价已经没了

sun3797 发表于 2025-3-17 21:21

q3again0605 发表于 2025-3-17 21:10
用**q量化格式的模型试试

**Q吗,感觉和awq没什么差别,理论awq会更快

sun3797 发表于 2025-3-17 21:24

q3again0605 发表于 2025-3-17 21:11
单槽你只能上暴力扇,还是改2槽2080ti的散热器吧

为了跑vllm改了双槽涡轮,3060ti散热器

q3again0605 发表于 2025-3-17 21:40

sun3797 发表于 2025-3-17 21:21
**Q吗,感觉和awq没什么差别,理论awq会更快

我压测和并发都没什么问题,4,5个还是可以的,只是都顶着功耗墙了,频率很多时候没有跑满。

q3again0605 发表于 2025-3-17 21:41

本帖最后由 q3again0605 于 2025-3-17 21:54 编辑

q3again0605 发表于 2025-3-17 21:40
我压测和并发都没什么问题,4,5个还是可以的,只是都顶着功耗墙了,频率很多时候没有跑满。 ...

我改的2080ti的没问题啊,65摄氏度到头了。想起来了,我只是单卡测试,另外一张还没一起。
页: 1 [2]
查看完整版本: 新年第一船 tesla T10 16g没啥人讨论吗