找回密码
 加入我们
搜索
      
楼主: KimmyGLM

[CPU] 纯CPU 跑LLM (如671B 的全量R1),对于U核心数是否有要求?

[复制链接]
发表于 2025-2-10 13:20 | 显示全部楼层
ba66882008 发表于 2025-2-10 13:01
想知道9950X配192G内存跑671b的1.58b量化怎么样

7950X+4090+96GB内存试过,有2-3t速度
发表于 2025-2-10 13:23 | 显示全部楼层
chungexcy 发表于 2025-2-10 12:17
CPU核心数目不太重要,但注意不能买2ccd的epyc。

每个ccd可以有1(narrow)或者2(Wide)个GMI连接到IOD, ...

部署deepseek这种场景,单路和双路CPU差别大么?我看有些说法是因为NUMA双路效率好像不怎么高
 楼主| 发表于 2025-2-10 13:26 | 显示全部楼层
hunclef 发表于 2025-2-10 13:23
部署deepseek这种场景,单路和双路CPU差别大么?我看有些说法是因为NUMA双路效率好像不怎么高 ...

能单不要双,多路U 的之间的通信带宽受限,即便用NUMA 来配置,也仅仅只有一点点提升;

看B站这个视频的讨论区

https://www.bilibili.com/video/B ... bc464b86ef34c9a4287
 楼主| 发表于 2025-2-10 13:32 | 显示全部楼层
本帖最后由 KimmyGLM 于 2025-2-10 13:36 编辑
pdvc 发表于 2025-2-10 13:20
7950X+4090+96GB内存试过,有2-3t速度


B 站这个视频该不会就是你吧,哈哈。


https://www.bilibili.com/video/B ... bc464b86ef34c9a4287


感觉有没有显卡,已经不重要了。
之前傲腾内存那个帖子里,有个水友也用192G 类似配置跑,速度基本一样。

https://www.chiphell.com/forum.p ... ;page=1#pid56647697
发表于 2025-2-10 13:43 | 显示全部楼层
zlcrxp 发表于 2025-2-10 12:59
贴个图

9004的IOD一共有12条GMI链接 3*4

你是对的。我算错了。
发表于 2025-2-10 13:48 | 显示全部楼层
hunclef 发表于 2025-2-10 13:23
部署deepseek这种场景,单路和双路CPU差别大么?我看有些说法是因为NUMA双路效率好像不怎么高 ...

我不太清楚,但理论上是“可以”有去别的。这个需要看软件优化,你还是等其他人的实测吧。

我能说的是,epyc双路之间的x4通信速度(跨NUMA内存访问带宽)是160GB/s(实际)到200GB/s(理论),毕竟这是pcie 5.0 x64的连接速度。

这里有人测试了x3模式下的通信速度,能跑到120GB/s。
https://chipsandcheese.com/p/amds-turin-5th-gen-epyc-launched

我感觉只要稍微优化一下,这个1/3的速度应该不太会成瓶颈。。。
发表于 2025-2-10 13:52 | 显示全部楼层
chungexcy 发表于 2025-2-10 13:48
我不太清楚,但理论上是“可以”有去别的。这个需要看软件优化,你还是等其他人的实测吧。

我能说的是, ...

需要优化。将专家参数按照一定的逻辑性放在不同的iod内存上,增加推理时在一个iod上的命中率。
发表于 2025-2-10 13:54 | 显示全部楼层
momo77989724 发表于 2025-2-10 11:15
核心有个32基本够用。。。T主要性能看内存通道速度
D4基本是废的 没法用
32核的价格和48 64区别也不大。。 ...

必须DDR5内存?
 楼主| 发表于 2025-2-10 13:55 | 显示全部楼层
我輩樹である 发表于 2025-2-10 13:52
需要优化。将专家参数按照一定的逻辑性放在不同的iod内存上,增加推理时在一个iod上的命中率。 ...

那估计要重写llama.cpp了,每层一个MoE扔到一个CCD的线程
发表于 2025-2-10 13:57 | 显示全部楼层
我輩樹である 发表于 2025-2-10 13:52
需要优化。将专家参数按照一定的逻辑性放在不同的iod内存上,增加推理时在一个iod上的命中率。 ...

reddit那位老哥说的是6-8 tokens/s,他就是zen5的双路。看样子能跑出b站那个视频的两倍速度。

https://xcancel.com/carrigmat/status/1884244369907278106
Matthew Carrigan
@carrigmat
Jan 28
Since a lot of people are asking, the generation speed on this build is 6 to 8 tokens per second, depending on the specific CPU and RAM speed you get, or slightly less if you have a long chat history. The clip above is near-realtime, sped up slightly to fit video length limits

 楼主| 发表于 2025-2-10 14:05 | 显示全部楼层
chungexcy 发表于 2025-2-10 13:57
reddit那位老哥说的是6-8 tokens/s,他就是zen5的双路。看样子能跑出b站那个视频的两倍速度。

https://x ...


Matthew Carrigan 是 Hugging Face 的机器学习工程师......
就是他最早给出部署768G 全CPU跑的方案的啊,X 上有
AMD EPYC 9004/9005 2S
Gigabyte MZ73-LM0
24×32GB DDR5-RDIMM
Enthoo Pro 2 Server

6-8T/s

成本差不多是6000美元
发表于 2025-2-10 14:13 | 显示全部楼层
KimmyGLM 发表于 2025-2-10 14:05
Matthew Carrigan 是 Hugging Face 的机器学习工程师......
就是他最早给出部署768G 全CPU跑的方案的啊, ...

所以我说双路应该是有提升的。

PS,6000刀买不了双路 zen5 的 8ccd 版本
发表于 2025-2-10 14:15 | 显示全部楼层
epyc2.png
9005的NUMA是这样分的
9004也类似

1个NUMA=4个CCD+3通道D5,图里面都标记为同一个颜色,只要不是跨NUMA访问内存的数据,延迟都不会高,更不用说跨 CPU插槽了。
我斗胆的猜测,这里的优化空间应该还挺大的,把一个NUMA类比为一个GPU,那现在的8卡看起来并没有跨卡访问的问题,那单路4NUMA,双路8个NUMA如果类似4卡8卡的效率,那可能真就比单路翻倍的性能了。

我看到现在主流的做法是把NPS设置为0或者1(在单路的话 0和1是等效的 都等于1个NUMA),也就是类似单卡,这种设置下面带宽并不是最大化利用
发表于 2025-2-10 14:21 | 显示全部楼层
本帖最后由 我輩樹である 于 2025-2-10 15:53 编辑
KimmyGLM 发表于 2025-2-10 14:05
Matthew Carrigan 是 Hugging Face 的机器学习工程师......
就是他最早给出部署768G 全CPU跑的方案的啊, ...

 单价数量总价
三星/海力士 REGECC DDR5 4800 32GB
820
24
19680
Gigabyte MZ73-LM0
8200
1
8200
EPYC 9124
4300
2
8600
金钱豹散热器
290
2
580
机箱鞋盒
0
1
0


穷鬼套餐,CPU为最便宜的4CCD,享受双倍GMI带宽,但L3只有64MB可能是雷点。淘宝配3w8左右。


推荐这个配置,多一万预算:
 单价数量总价
三星/海力士 REGECC DDR5 4800 32GB
820
24
19680
Gigabyte MZ73-LM0
8200
1
8200
EPYC 9354(4CCD)
9900
2
19800
金钱豹散热器
290
2
580
机箱鞋盒
0
1
0


4CCD的最好,双倍gmi带宽的最后福利。价格和带宽的平衡。

 楼主| 发表于 2025-2-10 14:22 | 显示全部楼层
chungexcy 发表于 2025-2-10 14:13
所以我说双路应该是有提升的。

PS,6000刀买不了双路 zen5 的 8ccd 版本

他建议买入门的9015  9115即可;
所以也不是很需要多核U
EPYC .jpg
发表于 2025-2-10 14:44 | 显示全部楼层

671基本不能用D4跑 跑不动的。。。哪怕是4B这种缩小版
发表于 2025-2-10 14:45 | 显示全部楼层
KimmyGLM 发表于 2025-2-10 14:22
他建议买入门的9015  9115即可;
所以也不是很需要多核U

这种带宽有损失的。。。
发表于 2025-2-10 14:49 | 显示全部楼层
我輩樹である 发表于 2025-2-10 14:21
穷鬼套餐,淘宝配3w8左右,但是只有2个CCD,gmi带宽太低。

推荐这个配置,多一万预算:


9354那么贵。。。干脆上QS得了。。。反正就是为了跑下
发表于 2025-2-10 14:51 | 显示全部楼层
本帖最后由 chungexcy 于 2025-2-10 14:52 编辑
KimmyGLM 发表于 2025-2-10 14:22
他建议买入门的9015  9115即可;
所以也不是很需要多核U


9015/9115没有实用价值啊,才2ccd,直接4通道内存算了。是不是这样连内存的钱也顺便省了

这位机器学习科学家可能天天用96核心的版本,没研究过苏妈的硬件规模,以为只是核心少了。
发表于 2025-2-10 14:53 | 显示全部楼层
KimmyGLM 发表于 2025-2-10 14:22
他建议买入门的9015  9115即可;
所以也不是很需要多核U

9015,9115最主要的是。。。。。国内有没有垃圾可以捡。刚查了一下,只有正式版,23000+。。。
发表于 2025-2-10 14:57 | 显示全部楼层
本帖最后由 chungexcy 于 2025-2-10 15:01 编辑
我輩樹である 发表于 2025-2-10 14:21
穷鬼套餐,淘宝配3w8左右,但是只有2个CCD,gmi带宽太低。

推荐这个配置,多一万预算:


单GMI实测52GB/s,理论是57.6GB/s。单CCD 107GB/s (GMI-wide)。

https://chipsandcheese.com/i/150034774/memory-bandwidth
 楼主| 发表于 2025-2-10 15:00 | 显示全部楼层
我輩樹である 发表于 2025-2-10 14:53
9015,9115最主要的是。。。。。国内有没有垃圾可以捡。刚查了一下,只有正式版,23000+。。。 ...

估计是随手写的,因为这俩是9005 epyc series list 最入门的俩,直接就被拿来当例子;
但是,大客户基本没有采购这种入门货色,导致大船货稀缺,还不如常见的9454  9554QS
发表于 2025-2-10 15:01 | 显示全部楼层
本帖最后由 我輩樹である 于 2025-2-10 15:04 编辑
chungexcy 发表于 2025-2-10 14:57
单GMI实测52GB/s,理论是57.6GB/s。单CCD 107GB/s。

https://chipsandcheese.com/i/150034774/memory-ba ...


95是8ccd的,93是4ccd,但是享受2倍link数(理论上),所以它们两gmi带宽是一样的。
发表于 2025-2-10 15:04 | 显示全部楼层
我輩樹である 发表于 2025-2-10 15:01
95是8ccd的,93是4ccd,但是享受2倍link数,所以它们两gmi带宽是一样的。


我看9354是8ccd,256M的L3。你看看9254/9255
发表于 2025-2-10 15:11 | 显示全部楼层
本帖最后由 我輩樹である 于 2025-2-10 15:12 编辑
chungexcy 发表于 2025-2-10 15:04
我看9354是8ccd,256M的L3。你看看9254/9255


截屏2025-02-10 15.10.09.png

确实是8,我都是问ai

从这个图看 9124是4ccd应该是最适合的。不知道它的内存通道数支持是不是完整的。
发表于 2025-2-10 15:13 | 显示全部楼层


这个是amd官方的图么?为啥64MB的也标4ccd。我不觉得amd会阉割l3。

我感觉看L3判断ccd应该是最准的。
发表于 2025-2-10 15:13 来自手机 | 显示全部楼层
有要求,而且很高,除非你打算就几百token context长度当纯玩具
9654 llama.cpp的话你很容易观察到context长度到2k decode速度就基本腰斩了
发表于 2025-2-10 15:14 | 显示全部楼层
chungexcy 发表于 2025-2-10 15:13
这个是amd官方的图么?为啥64MB的也标4ccd。我不觉得amd会阉割l3

https://www.hpctech.co.jp/assets ... 004_Series_Ver2.pdf
发表于 2025-2-10 15:15 | 显示全部楼层
我輩樹である 发表于 2025-2-10 15:14
https://www.hpctech.co.jp/assets/images/info/catalog/pdf/AMD_EPYC_9004_Series_Ver2.pdf

哦,懂了,自媒体版

省流:看着官网的L3大小买
发表于 2025-2-10 15:18 | 显示全部楼层
本帖最后由 zlcrxp 于 2025-2-10 15:20 编辑
chungexcy 发表于 2025-2-10 15:15
哦,懂了,自媒体版

省流:看着官网的L3大小买


epyc3.png

https://www.amd.com/content/dam/ ... essor-datasheet.pdf

epyc4.png

https://www.amd.com/content/dam/ ... sors-data-sheet.pdf

按照L3 来算CCD,然后再去查官方参数,有没有阉割带宽
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-22 12:31 , Processed in 0.015333 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表