找回密码
 加入我们
搜索
      
查看: 5980|回复: 35

[内存] 第一代傲腾持久内存在DeepSeek上的可用度很低

[复制链接]
发表于 2025-2-6 16:18 | 显示全部楼层 |阅读模式
1、这东西1代只有2666,哪怕你的cpu支持2933、3200,也会将内存速度拉到2666
2、如果你有256g内存,再上512g傲腾持久,此时系统内存容量为512G,而不是768G,也就是如果想硬跑完整版671b模型,得上512*2、256*4的傲腾持久,速度还很慢。
3、96G 6通道2933跑70b模型大概能到1.8token/s,内存速度大概115GB/s,而装上128G*2傲腾持久内存后,只剩约0.6token/s速度(我没跑完,也懒得测此时内存速度)。
4、傲腾这东西没想象中的难配置,内存模式超微主板插上就是,AD(当ssd用)模式得改参数重启2次。
5、用cpu跑DeepSeek,cpu占用只有50%是因为超线程,实际此时cpu已经满载了,将超线程关掉就能满载。
6、70b模型在我的6通道ddr4 2933机器上,4060级别的显卡用不用区别不大,尝试禁用显卡跑,速度没掉。
7、标题虽然说的是第一代,但我觉得所有的持久内存都可用度很低,要么贵,要么速度太慢,真想完整跑671b请无脑上ddr5 12通道。
截屏2025-02-06 16.02.36.png


8、切AD模式能跑到220万ipos随机读和24G顺序读,但按道理应该到40G顺序读才对(ddr4 2666双盘同时读写),有可能傲腾持久内存128G只有这个速度,网上别人测的都是256G、512G。
下图分别是傲腾持久随机读写、三星980双盘raid0随机读写,傲腾持久顺序读写,具体读写参数图上有。
CrystalDiskMark_20250206152458.png
CrystalDiskMark_20250206152718.png
CrystalDiskMark_20250206153727.png


9、我为啥突然关注这个,因为我正好手上的平台能用,加上咸鱼本地正好有人出,2条才250块钱。
IMG_0003.JPG

评分

参与人数 1邪恶指数 +5 收起 理由
Barcelona + 5

查看全部评分

发表于 2025-2-6 16:39 来自手机 | 显示全部楼层
双路DDR5 12通道跑都嫌慢,GDDR6也嫌慢,上HBM才勉勉强强,嗷疼这个和SSD 比速度的跑AI怎么可能.......
发表于 2025-2-6 16:40 | 显示全部楼层
这个以前micro还是intel总监自己说过,论速度赶不上mem,论容量赶不上ssd。两字:没用

发表于 2025-2-6 16:44 | 显示全部楼层
好帅啊,冒险心和信息共享是很棒的
发表于 2025-2-6 18:00 | 显示全部楼层
感谢分享

目前这个领域的问题看上去是,纯正的内存大家都嫌太慢拼命的换更快的内存(HBM),傲腾的速度犹如路边一条

说得宽泛一点的话,随着服务器CPU核心数量的飞速增长(32-64-96-192-288?),内存速度瓶颈有点明显了。内存速度8通道3200一路飙到6400,到如今8000依然能看到可观提升,傲腾想要跟内存拼速度我有点不太看好
发表于 2025-2-6 18:28 | 显示全部楼层
本帖最后由 n37fr0g 于 2025-2-6 18:31 编辑

我觉得如果傲腾二代512G能跑671b的ds,和硬件搭配起来,应该是最便宜的满血方案了吧,1t/s也可以忍一忍。不知道CPU配好一点的,速度能不能上去。
 楼主| 发表于 2025-2-6 18:31 | 显示全部楼层
n37fr0g 发表于 2025-2-6 18:28
我觉得如果傲腾二代512G能跑671b的ds,和硬件搭配起来,应该是最便宜的满血方案了吧,1t/s也可以忍一忍。 ...

按我跑8b和70b的速度差别猜测,有可能是0.05t/s
发表于 2025-2-6 18:34 | 显示全部楼层
毕竟是比内存速度还慢的东西
发表于 2025-2-6 18:51 | 显示全部楼层
上cxl vmem就行了,而且nvdimm的功能同时也被cxl bus都继承了。
发表于 2025-2-6 18:55 | 显示全部楼层
不管是nvdimm还是cxl,都需要良好的内存分层模型才能发挥亮眼的效果。
发表于 2025-2-6 19:15 | 显示全部楼层
加钱上H100X20,速度肯定翻100倍以上
发表于 2025-2-6 19:55 | 显示全部楼层
比内存还慢,并没有太大的意义。。。。
发表于 2025-2-8 05:10 | 显示全部楼层
T.JOHN 发表于 2025-2-6 16:40
这个以前micro还是intel总监自己说过,论速度赶不上mem,论容量赶不上ssd。两字:没用

...

很难想像到底是用什么样的心态做这机骨头产品

发表于 2025-2-8 05:59 | 显示全部楼层
dcpmm放当年可能很新奇,但也只有新奇了,说白了就是ddr2性能的奠子辣鸡
发表于 2025-2-8 15:22 | 显示全部楼层
本帖最后由 n37fr0g 于 2025-2-8 16:12 编辑

1.看了一些文章,了解到傲腾持久内存共推出三代,其中Intel Optane Persistent Memory 300 Series为最新一代,频率为3200/4400,可搭配DDR4(DDR-T)/DDR5(DDR-T2)内存使用,这一代产品的QS/ES产品黄鱼在卖,型号为(nmc2xad128g2s、nmc2xad512gqs  nmc2xbd128g1s、nmc2xbd128g2s、nmc2xbd128gqs),128g价格约为200元,搭配intel 四代可扩展(94XX 84XX 64XX)cpu使用,黄鱼84xx也不贵,可能主板算最贵的东西(主板可能需要搭配老bios才能使用)。

2.网上很多地方测试的是Optane PMem在AD模式(硬盘)的读写性能,未测试MM模式(内存)的读写性能,楼主测试的PMem一代性能和最新的PMem三代性能应当有较大差距(三代可以和DDR5 DRAM一起用)。

3.事实上处理器的速度和线程数也很重要,看了b站、nga及这里的部分帖子,使用cpu和大内存(不用gpu)直接跑ds 671b模型时,cpu使用率低,实际上超线程并未在使用当中,关闭超线程,cpu占用就100%了,如果cpu实在拉胯,ds应当也跑不快。

4.如10楼所述,ds如果有内存分层模型,部分需要高速访问的,运行在DDR5 DRAM上,部分不需要高速访问的,运行在Optane PMEM 300上,这样应该更好。

配置这样:
cpu:8480 es/qs    (qyfr、qy08、qyk8、qyfs)
ram:ddr5 16g x 4  = 64g(可x8或x12)
pmem:pmem 300 128g 4400mt/s  x 4  =  512g  (可x8或x12)

我仅讨论的是使用最低成本,运行完整版ds 671b的可能性,有兴趣可以自行测试。说错勿怪。请轻拍。
发表于 2025-2-8 15:29 | 显示全部楼层
我用家用平台的ddr5 192G加上2x4090跑R1的1.5bit版本都有1.5~2token/s,感觉过程中显卡几乎都在摸鱼。
发表于 2025-2-8 16:13 | 显示全部楼层
ddr5毕竟还是价格高,如果能在ddr4代平台上找到最佳性价比就好了。
发表于 2025-2-8 20:57 | 显示全部楼层
anishieh` 发表于 2025-2-8 15:29
我用家用平台的ddr5 192G加上2x4090跑R1的1.5bit版本都有1.5~2token/s,感觉过程中显卡几乎都在摸鱼。 ...

借问下,撤掉一张4090后,只用一张显卡跑,是不是Token也差不多?
发表于 2025-2-8 21:29 | 显示全部楼层
KimmyGLM 发表于 2025-2-8 20:57
借问下,撤掉一张4090后,只用一张显卡跑,是不是Token也差不多?

我怀疑两张4090都不用也是这个速度,不过晚点可以测试下。
发表于 2025-2-8 21:38 | 显示全部楼层
我有几十根一代DCPMM,有时间测测看
发表于 2025-2-8 22:02 | 显示全部楼层
deepseek的MoE架构因为只需要激活少量专家模型,当显存不足的时候可以在内存和显存之间交换专家模型,当然这个操作甚至可以下沉到SSD,那自然傲腾也可以参与了(如果适配了的话),这是3d并行的基本,但3d并行只适合训练绝对不适合推理。

MoE架构同时还有一个比较大的router在前端(用来选择用户的问题到底用哪几个专家模型作答),所以具体能省略多少内存不知道,但节省了内存带宽是一定的。

推理llm想要速度快最关键的一点是要达成zero copy零拷贝,无论你是用cpu跑还是gpu跑,一旦打破zero copy,性能会断层下降。所以混合cpu和gpu一定不讨好。

你可以用纯cpu跑,也可以用纯gpu跑(1.58bit的原因也是为了放入两张80G的h100/a100,仅需nvlink,不需要sxm5和infiniband)。

gpu跑的瓶颈是显存不够大,gpu跑的瓶颈是显存带宽不够和cpu赢弱的并行浮点性能。

用chatg p t试算了一下不一定准确,epyc插满12根ddr5 4800的内存带宽大概300g左右。与之对比,4090是1t,5090是1.8t,m4max是560g,nvlink4是900g。

同时,epyc的浮点性能fp32不会超过30t。xeon最新的有amx指令集,但性能好像也一般,cpu都只能应付中等强度的并行。例如5090的fp8性能有800多t稠密计算的浮点性能。
发表于 2025-2-8 22:53 来自手机 | 显示全部楼层
我輩樹である 发表于 2025-2-8 22:02
deepseek的MoE架构因为只需要激活少量专家模型,当显存不足的时候可以在内存和显存之间交换专家模型,当然 ...

W790和trx50的八通道 hedt平台,也许会重出江湖了……
发表于 2025-2-8 23:02 来自手机 | 显示全部楼层
我輩樹である 发表于 2025-2-8 22:02
deepseek的MoE架构因为只需要激活少量专家模型,当显存不足的时候可以在内存和显存之间交换专家模型,当然 ...

EPYC 可以到6400,带宽还能再拉一截,双路再乘2,xeon有AMX和12通道DDR5 8800,还能再强一点,我看评测好像双路能跑到H100的的一半的水平,没记错的话
发表于 2025-2-8 23:06 | 显示全部楼层
darkness66201 发表于 2025-2-8 23:02
EPYC 可以到6400,带宽还能再拉一截,双路再乘2,xeon有AMX和12通道DDR5 8800,还能再强一点,我看评测好 ...

双路还要看if总线的速度是多少。

插满12根都能跑8800,只能说太厉害了。
发表于 2025-2-8 23:10 | 显示全部楼层
KimmyGLM 发表于 2025-2-8 22:53
W790和trx50的八通道 hedt平台,也许会重出江湖了……


cpu推理终究不是最佳的方式,一般人手上那点钱买到的设备多少都很难满足。折腾到最后也就满足一个人的需求,不如去买api。
发表于 2025-2-8 23:34 来自手机 | 显示全部楼层
我輩樹である 发表于 2025-2-8 23:06
双路还要看if总线的速度是多少。

插满12根都能跑8800,只能说太厉害了。 ...

8800那个是镁光和intel合作的MRDIMM ,专门给xeon用的,如果不能12通道全开就没意义了吧...cpu推理其实对于个人跑大模型来说比gpu更优,至少内存容量没限制横竖能跑起来,速度也还行,比起几十万一张的计算卡靠谱,游戏卡显存不够价格也不便宜,不过像Halo那种可能是个人用户最优解了,工作站用户就上服务器u
发表于 2025-2-8 23:52 | 显示全部楼层
darkness66201 发表于 2025-2-8 23:34
8800那个是镁光和intel合作的MRDIMM ,专门给xeon用的,如果不能12通道全开就没意义了吧...cpu推理其实对 ...

只追求横竖跑起来几个tps那就cpu吧反正是玩票,而且货先出来再说吧,cpu除了总线还要考虑拓扑结构。halo那种挂核显的意义也不大,m4 ultra或者nv的digits是个人最好的选择。
发表于 2025-2-9 09:03 | 显示全部楼层
感谢分享这个有趣的尝试!
发表于 2025-2-9 10:46 来自手机 | 显示全部楼层
darkness66201 发表于 2025-2-8 23:34
8800那个是镁光和intel合作的MRDIMM ,专门给xeon用的,如果不能12通道全开就没意义了吧...cpu推理其实对 ...

搜了下mrdimm,恩,目前是个天价。
闲鱼有一家在卖,单条64g mrdimm卖4000……
发表于 2025-2-9 15:42 | 显示全部楼层
如果不把模型载入内存/显存,而就存在嗷疼上,或许会好点?
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-2-21 18:43 , Processed in 0.015084 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表