3995WX+8路2666内存跑Deepseek速度实测

cn88695 · 发表于 2025-2-19 11:32

Vossk 发表于 2025-2-18 18:05
mac mini m4 pro 64G跑不了671b，楼主64G*8+1x gpu可以跑4bit 671b

这才是正解，而且搞个服务器又不止跑ds

cn88695 · 发表于 2025-2-19 11:32

coolcoolbear 发表于 2025-2-18 17:59
我用14700kf/7900xtx/32g d5(6800), 跑32b，大概30 tokens/s, 70b, 2.xx tokens/s。
70b的效果不错，内存不 ...

哈哈，期待反馈

cn88695 · 发表于 2025-2-19 11:33

暂时是猫发表于 2025-2-18 17:00
671B可以一试，因为是MOE架构，未必会比70B慢这么多。估计有3 tokens/s

正在下载，等下载完了试试看，ollama官网的那个就可以吧？400多GB的

cn88695 · 发表于 2025-2-19 11:34

agrant 发表于 2025-2-18 16:58
ollama pull 要看网络
或者从其他地方下载下来，然后导入转换一下

不太清楚诶，要不直接把小文件下载到对应的文件夹内？

cn88695 · 发表于 2025-2-19 11:35

darkness66201 发表于 2025-2-18 16:37
最新一代的至强或者EPYC 上12通道DDR5 6000比起八通道DDR2666要强太多了，光是带宽就多了三倍都不止... ...

有没有可能价格也贵太多了，同样的64G，D4卖300多，D5卖1800+。我也知道D5比D4强啊，这价格差的也太大了（6倍），性能能快6倍吗？显然不能，而且你也不看9005啥价格，3995啥价格。

ccceee · 发表于 2025-2-19 12:08

cn88695 发表于 2025-2-19 11:30
你再弄4根内存条回来，成本大概1300（64*4），应该会对速度有很大帮助。

这个处理器只支持4通道，8个内存槽都插满了，插满顶天也就256G。

darkness66201 · 发表于 2025-2-19 12:41

cn88695 发表于 2025-2-19 11:35
有没有可能价格也贵太多了，同样的64G，D4卖300多，D5卖1800+。我也知道D5比D4强啊，这价格差的也太大了 ...

那肯定贵的啊，不然价值体现在哪里，本来时间就是巨大的价值，H100和3060比也没有上百倍的性能差距啊.....

cn88695 · 发表于 2025-2-19 13:04

darkness66201 发表于 2025-2-19 12:41
那肯定贵的啊，不然价值体现在哪里，本来时间就是巨大的价值，H100和3060比也没有上百倍的性能差距啊.... ...

个人玩家玩玩搞个d4得了呗，企业才追求极致效率（企业也不是个个不差钱啊），八条内存价格抵一个4090了，话说我要那么不差钱还搞个毛的纯CPU啊，直接上能买到的最好显卡得了呗。。。

BetaHT · 发表于 2025-2-19 17:13

cn88695 发表于 2025-2-19 11:27
你跑的模型有多大？

32b zsbd

cn88695 · 发表于 2025-2-20 12:51

运行deepseek-r1:671b（404GB）速度实测：
CPU占用75%，内存占用435GB（共512G），随便问了一个简单的问题，得到的速度如下：
total duration:    14m16.8031872s
load duration:       22.5209ms
prompt eval count: 22 token(s)
prompt eval duration: 3.257s
prompt eval rate:    6.75 tokens/s
eval count:          1572 token(s)
eval duration:       14m13.521s
eval rate:          1.84 tokens/s
还行吧，比我想象的快很多。

testmepro · 发表于 2025-2-20 13:35

cn88695 发表于 2025-2-20 12:51
运行deepseek-r1:671b（404GB）速度实测：
CPU占用75%，内存占用435GB（共512G），随便问了一个简单的问题 ...

不错呀,我也打算按老哥套路来一套 pro ws wrx80 e sage wifi ii +5975wx+512g内存,显卡暂时用原来的2080ti,等5090d价格回落稳定再说

cn88695 · 发表于 2025-2-20 14:05

testmepro 发表于 2025-2-20 13:35
不错呀,我也打算按老哥套路来一套 pro ws wrx80 e sage wifi ii +5975wx+512g内存,显卡暂时用原来的2080t ...

5975的架构更新，主频也更高，没准比3995wx效果还要好些。不过wrx80最多支持八通道，要是支持16通道就好了，插16根32的带宽翻一倍，没准速度也能翻一倍。

testmepro · 发表于 2025-2-20 15:05

cn88695 发表于 2025-2-20 14:05
5975的架构更新，主频也更高，没准比3995wx效果还要好些。不过wrx80最多支持八通道，要是支持16通道就好 ...

什么时候内存带宽能过1T/s 速度就上来了

cn88695 · 发表于 2025-2-20 15:21

testmepro 发表于 2025-2-20 15:05
什么时候内存带宽能过1T/s 速度就上来了

害那还有GPU啥事儿，直接CPU强推呗，不过我算了，要23根ddr5 5600mhz的才能达到1tb/s，一根64g的1900 也就是44000（只是内存哦）

deepfishing · 发表于 2025-2-20 15:26

我用的撕裂者跑1.58bit的模型效果不咋样，撕裂者配4张3090，不如看看4张4090 48G插上，然后尽量把模型放GPU山速度咋样了，四通道ddr4我跑的测速很慢，也许可以期待ai395这种再配gpu跑起来咋样。
1.58bit效果不咋样，但是2.22bit效果还行，看后续优化了。

darkness66201 · 发表于 2025-2-20 15:30

testmepro 发表于 2025-2-20 15:05
什么时候内存带宽能过1T/s 速度就上来了

12通道DDR5上双路就可以了，当然光内存就二十多条，和八通道DDR4成本就两码事了。

cn88695 · 发表于 2025-2-20 15:31

deepfishing 发表于 2025-2-20 15:26
我用的撕裂者跑1.58bit的模型效果不咋样，撕裂者配4张3090，不如看看4张4090 48G插上，然后尽量把模型放GPU ...

能上八通道尽量八通道，d4又不贵，看我上面的实测结果，效果很明显。不过你都有四张4090了，不应该呀，应该速度很快才对。我在纠结买一张魔改的4090d还是两张3090 价格分别是18000和13500的样子。

cn88695 · 发表于 2025-2-20 15:34

darkness66201 发表于 2025-2-20 15:30
12通道DDR5上双路就可以了，当然光内存就二十多条，和八通道DDR4成本就两码事了。 ...

对啊，我八条64g的d4才两千多吧好像，一条d5都1900了

testmepro · 发表于 2025-2-20 16:15

darkness66201 发表于 2025-2-20 15:30
12通道DDR5上双路就可以了，当然光内存就二十多条，和八通道DDR4成本就两码事了。 ...

内存加起来比主板+cpu还贵吧

cn88695 · 发表于 2025-2-20 16:54

testmepro 发表于 2025-2-20 16:15
内存加起来比主板+cpu还贵吧

23条d5 64g大概4万4？🌝🌝

darkness66201 · 发表于 2025-2-20 17:46

testmepro 发表于 2025-2-20 16:15
内存加起来比主板+cpu还贵吧

那倒也没有吧，双路cpu加起来官方报价怎么也得十几二十万吧，淘宝大船货当然便宜了。

ykdo · 发表于 2025-2-20 17:48

cn88695 发表于 2025-2-18 16:13
mac的拓展性太差了，以及我肯定不是买了个工作站专门跑ds嘛，还有其他需求。 ...

4090加3090各一张，能跑多大参数的DS啊

cn88695 · 发表于 2025-2-20 17:56

ykdo 发表于 2025-2-20 17:48
4090加3090各一张，能跑多大参数的DS啊

那就是48G显存呗，跑70b没啥问题，ollama的70b只有40G，不过上下文高了有可能爆显存，放一部分去内存跑。你可以试试，试完欢迎交流。

trashgod · 发表于 2025-2-20 18:09

ccceee 发表于 2025-2-18 22:44
我用至强W2145+6700xt+4通道ddr4 2666内存，跑14b有30tokens/s，还比较流畅；跑32b爆显存就只有3tokens/s， ...

为啥这些AI的结果输出都是一个个字蹦的。
难道不是一次性推理算出一段话，不可能真的是一个个字计算出来的啊。
好神奇，做过渡效果也不需要这样吧

cn88695 · 发表于 2025-2-20 18:59

trashgod 发表于 2025-2-20 18:09
为啥这些AI的结果输出都是一个个字蹦的。
难道不是一次性推理算出一段话，不可能真的是一个个字计算出来 ...

没错，就是一个字一个字蹦的，速度快了就一句话一起说了

pooChai · 发表于 2025-2-20 19:29

trashgod 发表于 2025-2-20 18:09
为啥这些AI的结果输出都是一个个字蹦的。
难道不是一次性推理算出一段话，不可能真的是一个个字计算出来 ...

一个token一般映射一个字或词, 5t/s,就意味着每秒能蹦出10来个字

ttt5t5t · 发表于 2025-2-20 20:47

兄弟你这个好像买错平台了
intel 5代Xeon或者AMD 3代EPYC才比较合适
县城说白了也只是工作站桌面++罢了

cn88695 · 发表于 2025-2-20 21:22

ttt5t5t 发表于 2025-2-20 20:47
兄弟你这个好像买错平台了
intel 5代Xeon或者AMD 3代EPYC才比较合适
县城说白了也只是工作站桌面++罢了 ...

就是要工作站呀，我的主要需求是MATLAB并行计算，7003主频太低了，核心太多其实用处不大。

coolcoolbear · 发表于 2025-2-21 17:33

cn88695 发表于 2025-2-19 11:32
哈哈，期待反馈

我把老电脑装好了，老机x299/9900x/256g/3080ti

671b 1.73bit的模型，token大概在0.5，基本上随便问个问题到得到反馈要10~20分钟。

然后分别拽了7b, 14， 32b, 70b的模型测试，7b很流畅，14b速度大概30tokens/s左右，32b个位数的token，比现在用的电脑跑70b的速度稍快一点点。
看来是需要大显存+高带宽大内存才能跑流畅。

coolcoolbear · 发表于 2025-2-21 17:37

对了，7900xtx的机器，24g显存会被占满，但是gpu用利率很小，基本不工作，cpu利用率50%左右。
3080ti, 12g显存会被占满，gpu利用率一直100%, 虽说gpu满载运行，运行速度还是比大显存的机器差很多。

账号		自动登录	找回密码
密码			加入我们

[CPU] 3995WX+8路2666内存跑Deepseek速度实测

浏览过的版块