纯CPU 跑LLM （如671B 的全量R1），对于U核心数是否有要求？

我輩樹である · 发表于 2025-2-10 15:19

本帖最后由我輩樹である于 2025-2-10 15:38 编辑

chungexcy 发表于 2025-2-10 15:15
哦，懂了，自媒体版

省流：看着官网的L3大小买

不是自媒体，卖超算工作站的商家。

https://forums.anandtech.com/thr ... ns-welcome.2621420/

这里也有人说9124是4ccd。

搜9124感觉这个u的问题挺多。

有找到了点资料，9124/9224确实是2个例外：

https://www.cfd-online.com/Forum ... yers-guide-cfd.html

3. Pitfalls and CPUs to avoid

Just like in the previous generations, the connection between the compute dies (CCD) and the I/O-die where the memory controllers reside can be a bottleneck. For 2nd gen Epyc Rome, we had CPUs with effectively half the total memory bandwidth thanks to this bottleneck.
The GMI3 links between CCD and an IOD did not undergo major changes. If my napkin math is correct, the bandwidth here is 57.6GB/s and 22.8GB/s for read and write respectively. Which requires 8 of these links to match the memory bandwidth. Remember: reads are more important than writes in most cases, so it doesn't matter that the write bandwidth lacks behind.
AMD has a trick up their sleeve: the CPUs with only 4 CCDs can be connected to the IOD with 2 GMI3 links each, which is enough to utilize the full potential of the memory subsystem. So in theory, the full stack of CPUs launched so far should not hide any nasty surprises.
CAVEAT: should
The wording in AMDs official slides is not definitive enough for my personal taste. It is stated that CPUs with 4 CCDs can utilize 2 GMI3 links per CCD. Not that all of them necessarily do. Maybe I'm just too paranoid, decide for yourself...
And there are the 2 low-end CPUs with only 64MB of L3 cache. How this is achieved remains to be seen. Up until now, 64MB L3 cache on an Epyc CPU meant only 2 CCDs are active. Which wasn't enough to get the full bandwidth in previous generations, and still isn't enough in this generation, even with two GMI3 links per CCD. The table above lists them as 4 CCD parts. AMDs official website lists all CPUs with a memory bandwidth of 460.8GB/s. But until detailed benchmarks for some of the lower-end parts are out, I would treat that information with some skepticism.

Edit: after sifting through AMD's own technical documentation, I can confirm that ALL CPUs launched so far consist of at least 4 active CCDs. Even those with 64MB of L3 cache.

Regardless, the value proposition for the lowest-end SKUs 9224 and 9124 just isn't there. The platform cost is fairly high thanks to PCIe5 and DDR5. And the halved L3 cache will have a negative performance impact. In this price and core count range, you are likely better off with some discounted parts from previous generations.
And until further benchmarks or confirmations are available, I reserve final judgement for all all SKUs listed above with a "4+1" configuration. I will post an update if/when that happens.

它们虽然是4ccd，但l3太小了，所以这些搞cfd的人不推荐

。

ahzhf · 发表于 2025-2-10 15:20

测试过在5995WX + 8x32G DDR4 3200 RAM跑2.51bit动态量化版DeepSeek R1 671B，Llama.cpp可以达到5-6 tokens/s。可能某些专用优化方案会更快，比如https://github.com/kvcache-ai/ktransformers

zhuifeng88 · 发表于 2025-2-10 15:21

本帖最后由 zhuifeng88 于 2025-2-10 15:23 编辑

ahzhf 发表于 2025-2-10 15:20
测试过在5995WX + 8x32G DDR4 3200 RAM跑2.51bit动态量化版DeepSeek R1 671B，Llama.cpp可以达到5-6 tokens ...

ktrsnsformers太古老了，测过，反而更慢，类似的结论你翻issue也能看到
(而且古老程度已经到可能没有去维护的价值了, 另造轮子更简单)

ahzhf · 发表于 2025-2-10 15:36

zhuifeng88 发表于 2025-2-10 15:21
ktrsnsformers太古老了，测过，反而更慢，类似的结论你翻issue也能看到
(而且古老程度已经到可能没有去维 ...

他们刚更新了V3的优化，还不知道实际效果如何https://github.com/kvcache-ai/kt ... ekR1_V3_tutorial.md

qdzx123 · 发表于 2025-2-10 15:47

本帖最后由 qdzx123 于 2025-2-10 15:50 编辑

低于5tk就几乎没有任何意义了连研究都别研究纯浪费时间
0.几更是完全没用 9.11和9.8谁大都要1200字
这种问题跑20分钟你会哭的
而且如果我没理解错随着上下文变长还会变慢
也就是带宽和体积的比值至少要到 6：1 （经验系数0.8）

zhuifeng88 · 发表于 2025-2-10 15:52

qdzx123 发表于 2025-2-10 15:47
低于5tk就几乎没有任何意义了连研究都别研究纯浪费时间
0.几更是完全没用 9.11和9.8谁大都要1200字
这种 ...

6:1完全有的 v3/r1激活参数量就37b而已又不是dense模型另外长上下文变慢是epyc算力不足的问题，attention层用显卡或者amx跑就好了

KimmyGLM · 发表于 2025-2-10 15:52

qdzx123 发表于 2025-2-10 15:47
低于5tk就几乎没有任何意义了连研究都别研究纯浪费时间
0.几更是完全没用 9.11和9.8谁大都要1200字
这种 ...

都知道速度快舒服啊，但是全GPU去跑真的是天价......君不见M2ultra 大内存的都被炒涨价了

qdzx123 · 发表于 2025-2-10 15:53

比起冲容量更重要的是想办法低价冲带宽

KimmyGLM · 发表于 2025-2-10 15:56

qdzx123 发表于 2025-2-10 15:53
比起冲容量更重要的是想办法低价冲带宽

no perfect solution for low cost in Bandwidth.....

本身用CPU 跑就是低价方案了，带宽和容量一般都是不可能兼得

qdzx123 · 发表于 2025-2-10 15:57

KimmyGLM 发表于 2025-2-10 15:52
都知道速度快舒服啊，但是全GPU去跑真的是天价......君不见M2ultra 大内存的都被炒涨价了 ...

不是舒服不舒服的问题你用算盘算火箭上天吗
0.几连玩的价值都没有了别说实用了，一个稍微复杂的问题要等半天（真的半天）
你跑一套测试要三年能接受吗
而且你算电费和api的价格就会发现你甚至打不赢在线的价格
如果担心隐私问题可以选择租卡或者一些海外有隐私协议的在线api
而其实 epyc ddr5的方案也并不便宜

qdzx123 · 发表于 2025-2-10 15:59

zhuifeng88 发表于 2025-2-10 15:52
6:1完全有的 v3/r1激活参数量就37b而已又不是dense模型另外长上下文变慢是epyc算力不足的问题，attenti ...

这样不会反而有很大的通讯开销吗

zhuifeng88 · 发表于 2025-2-10 16:01

qdzx123 发表于 2025-2-10 15:59
这样不会反而有很大的通讯开销吗

hidden state非常小，除非你每层执行时间到us级了才需要考虑这个事情而现在是ms级的

我輩樹である · 发表于 2025-2-10 16:03

qdzx123 发表于 2025-2-10 15:57
不是舒服不舒服的问题你用算盘算火箭上天吗
0.几连玩的价值都没有了别说实用了，一个稍微复杂的问题 ...

你的观点大家都懂，在很多其他帖子里面也反复讨论过了。而且你可以单独开个贴来讨论“有什么意义”或者“at what cost”的问题。

这个帖子就是超越了这些“意义探讨”的问题，讨论技术上用cpu跑的话题，其实这个话题不独特，很多地方都在讨论。

qdzx123 · 发表于 2025-2-10 16:21

本帖最后由 qdzx123 于 2025-2-10 16:27 编辑

我輩樹である发表于 2025-2-10 16:03
你的观点大家都懂，在很多其他帖子里面也反复讨论过了。而且你可以单独开个贴来讨论“有什么意义”或者“ ...

你看看前文 ddr4 甚至线程撕裂者还有什么好看的
这个问题很简单带宽最少要能到400-500（1.58b可以超低速运行实际上对1.58b来说cpu方案已经没很大的意义了）你再考虑容量把模型塞进来
否则这和游戏3帧测光追有什么区别
总不能出字=能正常运行吧
就和游戏最底线也不能低于20帧甚至30帧一样必须要有个最低限度

cpu方案的话要想能用大概得用上cxl吧pcie利用起来
cxl设备目前也是天价

真只是为了能跑起来硬盘就可以了性价比超高

KimmyGLM · 发表于 2025-2-10 16:22

我輩樹である发表于 2025-2-10 15:19
不是自媒体，卖超算工作站的商家。

https://forums.anandtech.com/threads/epyc-9124-genoa-sp5-heatsin ...

入门级的这几个4CCD epyc, 虽然硬件规格是双倍的 GMI3，理论上满8组，但搜了好久都没找到啥review，没有实证测试内存带宽，担心可能跑不满。

我輩樹である · 发表于 2025-2-10 16:26

KimmyGLM 发表于 2025-2-10 16:22
入门级的这几个4CCD epyc, 虽然硬件规格是双倍的 GMI3，理论上满8组，但搜了好久都没找到啥review，没有 ...

带宽跑不满也够了，460g理论值跑一般，双路还是460。你上面算的gmi 58x4x2=480，亏一点。

不过l3就64m，这个可能是雷。

qdzx123 · 发表于 2025-2-10 16:26

zhuifeng88 发表于 2025-2-10 16:01
hidden state非常小，除非你每层执行时间到us级了才需要考虑这个事情而现在是ms级的 ...

懂了那还是很有优化空间的
这样做还能用张量并行吗

zhuifeng88 · 发表于 2025-2-10 16:29

qdzx123 发表于 2025-2-10 16:26
懂了那还是很有优化空间的
这样做还能用张量并行吗

tensorparallel+expert parallel在moe层做，这部分只在cpu上运行，理想配置比如socket/snc内tensorparallel，socket间expert parallel，attention自己在显卡上玩，或者cpu单socket玩

pdvc · 发表于 2025-2-10 21:22

qdzx123 发表于 2025-2-10 15:57
不是舒服不舒服的问题你用算盘算火箭上天吗
0.几连玩的价值都没有了别说实用了，一个稍微复杂的问题 ...

D4平台我试过一次，5个小时跑满了128K Token的输出

zlcrxp · 发表于 2025-2-11 10:00

KimmyGLM 发表于 2025-2-10 16:22
入门级的这几个4CCD epyc, 虽然硬件规格是双倍的 GMI3，理论上满8组，但搜了好久都没找到啥review，没有 ...

除非AMD特别标注是砍了内存带宽的，比如7002有一些很特别的型号 7282这样，通道满但是带宽减半，应该是通过砍掉一半的GM来实现一半的带宽，但是保留了完整的内存控制器。
同样的有7D这样的砍掉了一半的内存控制器，也可以做到一半的带宽。
其他的型号你都可以以官网的为准。

KimmyGLM · 发表于 2025-2-11 10:15

zlcrxp 发表于 2025-2-11 10:00
除非AMD特别标注是砍了内存带宽的，比如7002有一些很特别的型号 7282这样，通道满但是带宽减半，应该是通 ...

嗯，但是我昨天无聊去翻水友的7975WX 7985WX服务器的帖子，带宽还是和CCD 数量息息相关，但提升不是线性的。具体可以看这俩贴，里面正好有带宽图。

https://www.chiphell.com/thread-2613922-1-1.html
https://www.chiphell.com/thread-2616386-1-1.html

同样是256G 8ch D5 5600 插满
32c 64t （4ccd）7975wx 带宽接近200G（仅看Read）；
64c 128t （8ccd） 7985wx 带宽接近280G ，内存超到6000后，跑出了近320G；

当然就单路而言，还有更猛的.....B站水友的志强3575x 256G 7000Mhz! 老英还有AMX的支持

qdzx123 · 发表于 2025-2-11 14:08

KimmyGLM 发表于 2025-2-11 10:15
嗯，但是我昨天无聊去翻水友的7975WX 7985WX服务器的帖子，带宽还是和CCD 数量息息相关，但提升不是线性 ...

坏了这下老🦅扳回一局

qdzx123 · 发表于 2025-2-11 14:27

CXL 2.0内存模块我觉着可以关注一下不过估计短期内价格...

KimmyGLM · 发表于 2025-2-11 14:43

qdzx123 发表于 2025-2-11 14:27
CXL 2.0内存模块我觉着可以关注一下不过估计短期内价格...

第五代志强目前价格还不错，8581C本坛有几个讨论帖子（感谢水友们）

https://www.chiphell.com/thread-2658060-2-1.html
https://www.chiphell.com/thread-2670147-1-1.html

B站跑Q2 2.51bit 671B的视频

https://www.bilibili.com/video/B ... bc464b86ef34c9a4287

qdzx123 · 发表于 2025-2-11 14:48

infiniband和光模块这类东西价格贵吗我完全没了解过

qdzx123 · 发表于 2025-2-11 14:57

https://www.reddit.com/r/LocalLL ... gle_machine_2_xeon/

卧槽看到一个帖子混合运行代码肯定很复杂

网仙 · 发表于 2025-2-12 15:24

本帖最后由网仙于 2025-2-12 16:28 编辑

chungexcy 发表于 2025-2-10 13:48
我不太清楚，但理论上是“可以”有去别的。这个需要看软件优化，你还是等其他人的实测吧。

我能说的是， ...

我看很多人都建议使用单路，避免双路CPU之间的通讯延迟。

单路EPYC 9575F，内存12通道，上到768G或1.5TB，这样跑R1全量Q8或者16位都够了，

不知道这个在ollama下面能不能达到15t/s的输出能力，

低于15感觉就没啥实用性了

账号		自动登录	找回密码
密码			加入我们

[CPU] 纯CPU 跑LLM （如671B 的全量R1），对于U核心数是否有要求？

浏览过的版块