第一代傲腾持久内存在DeepSeek上的可用度很低

灰羽利亞 · 发表于 2025-2-6 16:18

1、这东西1代只有2666，哪怕你的cpu支持2933、3200，也会将内存速度拉到2666
2、如果你有256g内存，再上512g傲腾持久，此时系统内存容量为512G，而不是768G，也就是如果想硬跑完整版671b模型，得上512*2、256*4的傲腾持久，速度还很慢。
3、96G 6通道2933跑70b模型大概能到1.8token/s，内存速度大概115GB/s，而装上128G*2傲腾持久内存后，只剩约0.6token/s速度（我没跑完，也懒得测此时内存速度）。
4、傲腾这东西没想象中的难配置，内存模式超微主板插上就是，AD（当ssd用）模式得改参数重启2次。
5、用cpu跑DeepSeek，cpu占用只有50%是因为超线程，实际此时cpu已经满载了，将超线程关掉就能满载。
6、70b模型在我的6通道ddr4 2933机器上，4060级别的显卡用不用区别不大，尝试禁用显卡跑，速度没掉。
7、标题虽然说的是第一代，但我觉得所有的持久内存都可用度很低，要么贵，要么速度太慢，真想完整跑671b请无脑上ddr5 12通道。
截屏2025-02-06 16.02.36.png

8、切AD模式能跑到220万ipos随机读和24G顺序读，但按道理应该到40G顺序读才对（ddr4 2666双盘同时读写），有可能傲腾持久内存128G只有这个速度，网上别人测的都是256G、512G。
下图分别是傲腾持久随机读写、三星980双盘raid0随机读写，傲腾持久顺序读写，具体读写参数图上有。

9、我为啥突然关注这个，因为我正好手上的平台能用，加上咸鱼本地正好有人出，2条才250块钱。

darkness66201 · 发表于 2025-2-6 16:39

双路DDR5 12通道跑都嫌慢，GDDR6也嫌慢，上HBM才勉勉强强，嗷疼这个和SSD 比速度的跑AI怎么可能.......

T.JOHN · 发表于 2025-2-6 16:40

这个以前micro还是intel总监自己说过，论速度赶不上mem，论容量赶不上ssd。两字：没用

巌窟王 · 发表于 2025-2-6 16:44

好帅啊，冒险心和信息共享是很棒的

ltpterry · 发表于 2025-2-6 18:00

感谢分享

目前这个领域的问题看上去是，纯正的内存大家都嫌太慢拼命的换更快的内存（HBM），傲腾的速度犹如路边一条

说得宽泛一点的话，随着服务器CPU核心数量的飞速增长（32-64-96-192-288？），内存速度瓶颈有点明显了。内存速度8通道3200一路飙到6400，到如今8000依然能看到可观提升，傲腾想要跟内存拼速度我有点不太看好

n37fr0g · 发表于 2025-2-6 18:28

本帖最后由 n37fr0g 于 2025-2-6 18:31 编辑

我觉得如果傲腾二代512G能跑671b的ds，和硬件搭配起来，应该是最便宜的满血方案了吧，1t/s也可以忍一忍。不知道CPU配好一点的，速度能不能上去。

灰羽利亞 · 发表于 2025-2-6 18:31

n37fr0g 发表于 2025-2-6 18:28
我觉得如果傲腾二代512G能跑671b的ds，和硬件搭配起来，应该是最便宜的满血方案了吧，1t/s也可以忍一忍。 ...

按我跑8b和70b的速度差别猜测，有可能是0.05t/s

老饭 · 发表于 2025-2-6 18:34

毕竟是比内存速度还慢的东西

21PENNY · 发表于 2025-2-6 18:51

上cxl vmem就行了，而且nvdimm的功能同时也被cxl bus都继承了。

21PENNY · 发表于 2025-2-6 18:55

不管是nvdimm还是cxl，都需要良好的内存分层模型才能发挥亮眼的效果。

fyc858 · 发表于 2025-2-6 19:15

加钱上H100X20，速度肯定翻100倍以上

kanshuderen · 发表于 2025-2-6 19:55

比内存还慢，并没有太大的意义。。。。

ljy1414 · 发表于 2025-2-8 05:10

T.JOHN 发表于 2025-2-6 16:40
这个以前micro还是intel总监自己说过，论速度赶不上mem，论容量赶不上ssd。两字：没用

...

很难想像到底是用什么样的心态做这机骨头产品

Juzi丶 · 发表于 2025-2-8 05:59

dcpmm放当年可能很新奇，但也只有新奇了，说白了就是ddr2性能的奠子辣鸡

n37fr0g · 发表于 2025-2-8 15:22

本帖最后由 n37fr0g 于 2025-2-8 16:12 编辑

1.看了一些文章，了解到傲腾持久内存共推出三代，其中Intel Optane Persistent Memory 300 Series为最新一代，频率为3200/4400，可搭配DDR4(DDR-T)/DDR5(DDR-T2)内存使用，这一代产品的QS/ES产品黄鱼在卖，型号为（nmc2xad128g2s、nmc2xad512gqs  nmc2xbd128g1s、nmc2xbd128g2s、nmc2xbd128gqs），128g价格约为200元，搭配intel 四代可扩展（94XX 84XX 64XX）cpu使用，黄鱼84xx也不贵，可能主板算最贵的东西（主板可能需要搭配老bios才能使用）。

2.网上很多地方测试的是Optane PMem在AD模式（硬盘）的读写性能，未测试MM模式（内存）的读写性能，楼主测试的PMem一代性能和最新的PMem三代性能应当有较大差距（三代可以和DDR5 DRAM一起用）。

3.事实上处理器的速度和线程数也很重要，看了b站、nga及这里的部分帖子，使用cpu和大内存（不用gpu）直接跑ds 671b模型时，cpu使用率低，实际上超线程并未在使用当中，关闭超线程，cpu占用就100%了，如果cpu实在拉胯，ds应当也跑不快。

4.如10楼所述，ds如果有内存分层模型，部分需要高速访问的，运行在DDR5 DRAM上，部分不需要高速访问的，运行在Optane PMEM 300上，这样应该更好。

配置这样：
cpu：8480 es/qs （qyfr、qy08、qyk8、qyfs）
ram：ddr5 16g x 4  = 64g（可x8或x12）
pmem：pmem 300 128g 4400mt/s  x 4  =  512g  （可x8或x12）

我仅讨论的是使用最低成本，运行完整版ds 671b的可能性，有兴趣可以自行测试。说错勿怪。请轻拍。

anishieh` · 发表于 2025-2-8 15:29

我用家用平台的ddr5 192G加上2x4090跑R1的1.5bit版本都有1.5~2token/s，感觉过程中显卡几乎都在摸鱼。

n37fr0g · 发表于 2025-2-8 16:13

ddr5毕竟还是价格高，如果能在ddr4代平台上找到最佳性价比就好了。

KimmyGLM · 发表于 2025-2-8 20:57

anishieh` 发表于 2025-2-8 15:29
我用家用平台的ddr5 192G加上2x4090跑R1的1.5bit版本都有1.5~2token/s，感觉过程中显卡几乎都在摸鱼。 ...

借问下，撤掉一张4090后，只用一张显卡跑，是不是Token也差不多？

anishieh` · 发表于 2025-2-8 21:29

KimmyGLM 发表于 2025-2-8 20:57
借问下，撤掉一张4090后，只用一张显卡跑，是不是Token也差不多？

我怀疑两张4090都不用也是这个速度，不过晚点可以测试下。

Icarus_Radio · 发表于 2025-2-8 21:38

我有几十根一代DCPMM，有时间测测看

我輩樹である · 发表于 2025-2-8 22:02

deepseek的MoE架构因为只需要激活少量专家模型，当显存不足的时候可以在内存和显存之间交换专家模型，当然这个操作甚至可以下沉到SSD，那自然傲腾也可以参与了（如果适配了的话），这是3d并行的基本，但3d并行只适合训练绝对不适合推理。

MoE架构同时还有一个比较大的router在前端（用来选择用户的问题到底用哪几个专家模型作答），所以具体能省略多少内存不知道，但节省了内存带宽是一定的。

推理llm想要速度快最关键的一点是要达成zero copy零拷贝，无论你是用cpu跑还是gpu跑，一旦打破zero copy，性能会断层下降。所以混合cpu和gpu一定不讨好。

你可以用纯cpu跑，也可以用纯gpu跑（1.58bit的原因也是为了放入两张80G的h100/a100，仅需nvlink，不需要sxm5和infiniband）。

gpu跑的瓶颈是显存不够大，gpu跑的瓶颈是显存带宽不够和cpu赢弱的并行浮点性能。

用chatg p t试算了一下不一定准确，epyc插满12根ddr5 4800的内存带宽大概300g左右。与之对比，4090是1t，5090是1.8t，m4max是560g，nvlink4是900g。

同时，epyc的浮点性能fp32不会超过30t。xeon最新的有amx指令集，但性能好像也一般，cpu都只能应付中等强度的并行。例如5090的fp8性能有800多t稠密计算的浮点性能。

KimmyGLM · 发表于 2025-2-8 22:53

我輩樹である发表于 2025-2-8 22:02
deepseek的MoE架构因为只需要激活少量专家模型，当显存不足的时候可以在内存和显存之间交换专家模型，当然 ...

W790和trx50的八通道 hedt平台，也许会重出江湖了……

darkness66201 · 发表于 2025-2-8 23:02

我輩樹である发表于 2025-2-8 22:02
deepseek的MoE架构因为只需要激活少量专家模型，当显存不足的时候可以在内存和显存之间交换专家模型，当然 ...

EPYC 可以到6400，带宽还能再拉一截，双路再乘2，xeon有AMX和12通道DDR5 8800，还能再强一点，我看评测好像双路能跑到H100的的一半的水平，没记错的话

我輩樹である · 发表于 2025-2-8 23:06

darkness66201 发表于 2025-2-8 23:02
EPYC 可以到6400，带宽还能再拉一截，双路再乘2，xeon有AMX和12通道DDR5 8800，还能再强一点，我看评测好 ...

双路还要看if总线的速度是多少。

插满12根都能跑8800，只能说太厉害了。

我輩樹である · 发表于 2025-2-8 23:10

KimmyGLM 发表于 2025-2-8 22:53
W790和trx50的八通道 hedt平台，也许会重出江湖了……

cpu推理终究不是最佳的方式，一般人手上那点钱买到的设备多少都很难满足。折腾到最后也就满足一个人的需求，不如去买api。

darkness66201 · 发表于 2025-2-8 23:34

我輩樹である发表于 2025-2-8 23:06
双路还要看if总线的速度是多少。

插满12根都能跑8800，只能说太厉害了。 ...

8800那个是镁光和intel合作的MRDIMM ，专门给xeon用的，如果不能12通道全开就没意义了吧...cpu推理其实对于个人跑大模型来说比gpu更优，至少内存容量没限制横竖能跑起来，速度也还行，比起几十万一张的计算卡靠谱，游戏卡显存不够价格也不便宜，不过像Halo那种可能是个人用户最优解了，工作站用户就上服务器u

我輩樹である · 发表于 2025-2-8 23:52

darkness66201 发表于 2025-2-8 23:34
8800那个是镁光和intel合作的MRDIMM ，专门给xeon用的，如果不能12通道全开就没意义了吧...cpu推理其实对 ...

只追求横竖跑起来几个tps那就cpu吧反正是玩票，而且货先出来再说吧，cpu除了总线还要考虑拓扑结构。halo那种挂核显的意义也不大，m4 ultra或者nv的digits是个人最好的选择。

lh0ngfu · 发表于 2025-2-9 09:03

感谢分享这个有趣的尝试！

KimmyGLM · 发表于 2025-2-9 10:46

darkness66201 发表于 2025-2-8 23:34
8800那个是镁光和intel合作的MRDIMM ，专门给xeon用的，如果不能12通道全开就没意义了吧...cpu推理其实对 ...

搜了下mrdimm，恩，目前是个天价。
闲鱼有一家在卖，单条64g mrdimm卖4000……

装陈醋的酱油瓶 · 发表于 2025-2-9 15:42

如果不把模型载入内存/显存，而就存在嗷疼上，或许会好点?

账号		自动登录	找回密码
密码			加入我们

[内存] 第一代傲腾持久内存在DeepSeek上的可用度很低

评分