纯CPU 跑LLM （如671B 的全量R1），对于U核心数是否有要求？

pdvc · 发表于 2025-2-10 13:20

ba66882008 发表于 2025-2-10 13:01
想知道9950X配192G内存跑671b的1.58b量化怎么样

7950X+4090+96GB内存试过，有2-3t速度

hunclef · 发表于 2025-2-10 13:23

chungexcy 发表于 2025-2-10 12:17
CPU核心数目不太重要，但注意不能买2ccd的epyc。

每个ccd可以有1（narrow）或者2（Wide）个GMI连接到IOD， ...

部署deepseek这种场景，单路和双路CPU差别大么？我看有些说法是因为NUMA双路效率好像不怎么高

KimmyGLM · 发表于 2025-2-10 13:26

hunclef 发表于 2025-2-10 13:23
部署deepseek这种场景，单路和双路CPU差别大么？我看有些说法是因为NUMA双路效率好像不怎么高 ...

能单不要双，多路U 的之间的通信带宽受限，即便用NUMA 来配置，也仅仅只有一点点提升；

看B站这个视频的讨论区

https://www.bilibili.com/video/B ... bc464b86ef34c9a4287

KimmyGLM · 发表于 2025-2-10 13:32

本帖最后由 KimmyGLM 于 2025-2-10 13:36 编辑

pdvc 发表于 2025-2-10 13:20
7950X+4090+96GB内存试过，有2-3t速度

B 站这个视频该不会就是你吧，哈哈。

https://www.bilibili.com/video/B ... bc464b86ef34c9a4287

感觉有没有显卡，已经不重要了。
之前傲腾内存那个帖子里，有个水友也用192G 类似配置跑，速度基本一样。

https://www.chiphell.com/forum.p ... ;page=1#pid56647697

我輩樹である · 发表于 2025-2-10 13:43

zlcrxp 发表于 2025-2-10 12:59
贴个图

9004的IOD一共有12条GMI链接 3*4

你是对的。我算错了。

chungexcy · 发表于 2025-2-10 13:48

hunclef 发表于 2025-2-10 13:23
部署deepseek这种场景，单路和双路CPU差别大么？我看有些说法是因为NUMA双路效率好像不怎么高 ...

我不太清楚，但理论上是“可以”有去别的。这个需要看软件优化，你还是等其他人的实测吧。

我能说的是，epyc双路之间的x4通信速度（跨NUMA内存访问带宽）是160GB/s（实际）到200GB/s（理论），毕竟这是pcie 5.0 x64的连接速度。

这里有人测试了x3模式下的通信速度，能跑到120GB/s。
https://chipsandcheese.com/p/amds-turin-5th-gen-epyc-launched

我感觉只要稍微优化一下，这个1/3的速度应该不太会成瓶颈。。。

我輩樹である · 发表于 2025-2-10 13:52

chungexcy 发表于 2025-2-10 13:48
我不太清楚，但理论上是“可以”有去别的。这个需要看软件优化，你还是等其他人的实测吧。

我能说的是， ...

需要优化。将专家参数按照一定的逻辑性放在不同的iod内存上，增加推理时在一个iod上的命中率。

雨季不再来 · 发表于 2025-2-10 13:54

momo77989724 发表于 2025-2-10 11:15
核心有个32基本够用。。。T主要性能看内存通道速度
D4基本是废的没法用
32核的价格和48 64区别也不大。。 ...

必须DDR5内存？

KimmyGLM · 发表于 2025-2-10 13:55

我輩樹である发表于 2025-2-10 13:52
需要优化。将专家参数按照一定的逻辑性放在不同的iod内存上，增加推理时在一个iod上的命中率。 ...

那估计要重写llama.cpp了，每层一个MoE扔到一个CCD的线程

chungexcy · 发表于 2025-2-10 13:57

我輩樹である发表于 2025-2-10 13:52
需要优化。将专家参数按照一定的逻辑性放在不同的iod内存上，增加推理时在一个iod上的命中率。 ...

reddit那位老哥说的是6-8 tokens/s，他就是zen5的双路。看样子能跑出b站那个视频的两倍速度。

https://xcancel.com/carrigmat/status/1884244369907278106

Matthew Carrigan
@carrigmat
Jan 28
Since a lot of people are asking, the generation speed on this build is 6 to 8 tokens per second, depending on the specific CPU and RAM speed you get, or slightly less if you have a long chat history. The clip above is near-realtime, sped up slightly to fit video length limits

KimmyGLM · 发表于 2025-2-10 14:05

chungexcy 发表于 2025-2-10 13:57
reddit那位老哥说的是6-8 tokens/s，他就是zen5的双路。看样子能跑出b站那个视频的两倍速度。

https://x ...

Matthew Carrigan 是 Hugging Face 的机器学习工程师......
就是他最早给出部署768G 全CPU跑的方案的啊，X 上有
AMD EPYC 9004/9005 2S
Gigabyte MZ73-LM0
24×32GB DDR5-RDIMM
Enthoo Pro 2 Server

6-8T/s

成本差不多是6000美元

chungexcy · 发表于 2025-2-10 14:13

KimmyGLM 发表于 2025-2-10 14:05
Matthew Carrigan 是 Hugging Face 的机器学习工程师......
就是他最早给出部署768G 全CPU跑的方案的啊， ...

所以我说双路应该是有提升的。

PS，6000刀买不了双路 zen5 的 8ccd 版本

zlcrxp · 发表于 2025-2-10 14:15

9005的NUMA是这样分的
9004也类似

1个NUMA=4个CCD+3通道D5，图里面都标记为同一个颜色，只要不是跨NUMA访问内存的数据，延迟都不会高，更不用说跨 CPU插槽了。
我斗胆的猜测，这里的优化空间应该还挺大的，把一个NUMA类比为一个GPU，那现在的8卡看起来并没有跨卡访问的问题，那单路4NUMA，双路8个NUMA如果类似4卡8卡的效率，那可能真就比单路翻倍的性能了。

我看到现在主流的做法是把NPS设置为0或者1（在单路的话 0和1是等效的都等于1个NUMA），也就是类似单卡，这种设置下面带宽并不是最大化利用

我輩樹である · 发表于 2025-2-10 14:21

本帖最后由我輩樹である于 2025-2-10 15:53 编辑

KimmyGLM 发表于 2025-2-10 14:05
Matthew Carrigan 是 Hugging Face 的机器学习工程师......
就是他最早给出部署768G 全CPU跑的方案的啊， ...

	单价	数量	总价
三星/海力士 REGECC DDR5 4800 32GB	820	24	19680
Gigabyte MZ73-LM0	8200	1	8200
EPYC 9124	4300	2	8600
金钱豹散热器	290	2	580
机箱鞋盒	0	1	0

穷鬼套餐，CPU为最便宜的4CCD，享受双倍GMI带宽，但L3只有64MB可能是雷点。淘宝配3w8左右。

推荐这个配置，多一万预算：

　单价数量总价
三星/海力士 REGECC DDR5 4800 32GB
820
24
19680
Gigabyte MZ73-LM0
8200
1
8200
EPYC 9354（4CCD）
9900
2
19800
金钱豹散热器
290
2
580
机箱鞋盒
0
1
0

4CCD的最好，双倍gmi带宽的最后福利。价格和带宽的平衡。

KimmyGLM · 发表于 2025-2-10 14:22

chungexcy 发表于 2025-2-10 14:13
所以我说双路应该是有提升的。

PS，6000刀买不了双路 zen5 的 8ccd 版本

他建议买入门的9015 9115即可；
所以也不是很需要多核U

momo77989724 · 发表于 2025-2-10 14:44

雨季不再来发表于 2025-2-10 13:54
必须DDR5内存？

671基本不能用D4跑跑不动的。。。哪怕是4B这种缩小版

momo77989724 · 发表于 2025-2-10 14:45

KimmyGLM 发表于 2025-2-10 14:22
他建议买入门的9015 9115即可；
所以也不是很需要多核U

这种带宽有损失的。。。

momo77989724 · 发表于 2025-2-10 14:49

我輩樹である发表于 2025-2-10 14:21
穷鬼套餐，淘宝配3w8左右，但是只有2个CCD，gmi带宽太低。

推荐这个配置，多一万预算：

9354那么贵。。。干脆上QS得了。。。反正就是为了跑下

chungexcy · 发表于 2025-2-10 14:51

本帖最后由 chungexcy 于 2025-2-10 14:52 编辑

KimmyGLM 发表于 2025-2-10 14:22
他建议买入门的9015 9115即可；
所以也不是很需要多核U

9015/9115没有实用价值啊，才2ccd，直接4通道内存算了。是不是这样连内存的钱也顺便省了

这位机器学习科学家可能天天用96核心的版本，没研究过苏妈的硬件规模，以为只是核心少了。

我輩樹である · 发表于 2025-2-10 14:53

KimmyGLM 发表于 2025-2-10 14:22
他建议买入门的9015 9115即可；
所以也不是很需要多核U

9015，9115最主要的是。。。。。国内有没有垃圾可以捡。刚查了一下，只有正式版，23000+。。。

chungexcy · 发表于 2025-2-10 14:57

本帖最后由 chungexcy 于 2025-2-10 15:01 编辑

我輩樹である发表于 2025-2-10 14:21
穷鬼套餐，淘宝配3w8左右，但是只有2个CCD，gmi带宽太低。

推荐这个配置，多一万预算：

单GMI实测52GB/s，理论是57.6GB/s。单CCD 107GB/s （GMI-wide）。

https://chipsandcheese.com/i/150034774/memory-bandwidth

KimmyGLM · 发表于 2025-2-10 15:00

我輩樹である发表于 2025-2-10 14:53
9015，9115最主要的是。。。。。国内有没有垃圾可以捡。刚查了一下，只有正式版，23000+。。。 ...

估计是随手写的，因为这俩是9005 epyc series list 最入门的俩，直接就被拿来当例子；
但是，大客户基本没有采购这种入门货色，导致大船货稀缺，还不如常见的9454 9554QS

我輩樹である · 发表于 2025-2-10 15:01

本帖最后由我輩樹である于 2025-2-10 15:04 编辑

chungexcy 发表于 2025-2-10 14:57
单GMI实测52GB/s，理论是57.6GB/s。单CCD 107GB/s。

https://chipsandcheese.com/i/150034774/memory-ba ...

95是8ccd的，93是4ccd，但是享受2倍link数（理论上），所以它们两gmi带宽是一样的。

chungexcy · 发表于 2025-2-10 15:04

我輩樹である发表于 2025-2-10 15:01
95是8ccd的，93是4ccd，但是享受2倍link数，所以它们两gmi带宽是一样的。

我看9354是8ccd，256M的L3。你看看9254/9255

我輩樹である · 发表于 2025-2-10 15:11

本帖最后由我輩樹である于 2025-2-10 15:12 编辑

chungexcy 发表于 2025-2-10 15:04
我看9354是8ccd，256M的L3。你看看9254/9255

确实是8，我都是问ai

从这个图看 9124是4ccd应该是最适合的。不知道它的内存通道数支持是不是完整的。

chungexcy · 发表于 2025-2-10 15:13

我輩樹である发表于 2025-2-10 15:11
确实是8，我都是问ai

这个是amd官方的图么？为啥64MB的也标4ccd。我不觉得amd会阉割l3。

我感觉看L3判断ccd应该是最准的。

zhuifeng88 · 发表于 2025-2-10 15:13

有要求，而且很高，除非你打算就几百token context长度当纯玩具
9654 llama.cpp的话你很容易观察到context长度到2k decode速度就基本腰斩了

我輩樹である · 发表于 2025-2-10 15:14

chungexcy 发表于 2025-2-10 15:13
这个是amd官方的图么？为啥64MB的也标4ccd。我不觉得amd会阉割l3

https://www.hpctech.co.jp/assets ... 004_Series_Ver2.pdf

chungexcy · 发表于 2025-2-10 15:15

我輩樹である发表于 2025-2-10 15:14
https://www.hpctech.co.jp/assets/images/info/catalog/pdf/AMD_EPYC_9004_Series_Ver2.pdf

哦，懂了，自媒体版

省流：看着官网的L3大小买

zlcrxp · 发表于 2025-2-10 15:18

本帖最后由 zlcrxp 于 2025-2-10 15:20 编辑

chungexcy 发表于 2025-2-10 15:15
哦，懂了，自媒体版

省流：看着官网的L3大小买

https://www.amd.com/content/dam/ ... essor-datasheet.pdf

https://www.amd.com/content/dam/ ... sors-data-sheet.pdf

按照L3 来算CCD，然后再去查官方参数，有没有阉割带宽

账号		自动登录	找回密码
密码			加入我们

[CPU] 纯CPU 跑LLM （如671B 的全量R1），对于U核心数是否有要求？

浏览过的版块