8581C和1080ti单精度浮点都在10TFLOPS左右

os39000 · 发表于 2024-12-12 19:47

那么可以用8581C做推理用吗？
双路主板还有双倍享受，20TFLOPS。
网络上8581C的消息太少了，reddit也没什么信息，反倒b站有些装机视频。

momo77989724 · 发表于 2024-12-12 19:54

本帖最后由 momo77989724 于 2024-12-12 19:57 编辑

双路可跑不满8581C 要降频的吧

技嘉的双路标称也不是跑385瓦的貌似。。

我感觉8575C更好 8581只是因为便宜蛋蛋多。他们估计有大量的货单价低。。不过这玩意好像能切核心数量工作模式也能改成48核的全核频率会变高

os39000 · 发表于 2024-12-12 20:18

momo77989724 发表于 2024-12-12 19:54
双路可跑不满8581C 要降频的吧

技嘉的双路标称也不是跑385瓦的貌似。。

对，卖家声称可以三种工作模式：48-52-60.
60的全核2.9。
8575C要超10000了

momo77989724 · 发表于 2024-12-12 20:22

os39000 发表于 2024-12-12 20:18
对，卖家声称可以三种工作模式：48-52-60.
60的全核2.9。
8575C要超10000了

385 普通X13也跑不满我在找 350瓦好用的U

不行就限制350瓦。。。

还有个8555C 也便宜不过这个跑分就低了 8555一档 8581一档 8575又是另一档。。。

银月 · 发表于 2024-12-12 20:22

8581C两颗要tm小两万，你买个4090不直接秒了？

zhuifeng88 · 发表于 2024-12-12 20:24

你跑推理为什么要用单精....8581c那全核3g 180t的bf16 gemm放着不用...

os39000 · 发表于 2024-12-12 20:41

momo77989724 发表于 2024-12-12 20:22
385 普通X13也跑不满我在找 350瓦好用的U

不行就限制350瓦。。。

技嘉有两款C741

os39000 · 发表于 2024-12-12 20:42

银月发表于 2024-12-12 20:22
8581C两颗要tm小两万，你买个4090不直接秒了？

显存，8581C容易搞定

os39000 · 发表于 2024-12-12 20:43

zhuifeng88 发表于 2024-12-12 20:24
你跑推理为什么要用单精....8581c那全核3g 180t的bf16 gemm放着不用...

这消息不要太好

zhuifeng88 · 发表于 2024-12-12 20:46

本帖最后由 zhuifeng88 于 2024-12-12 21:51 编辑

os39000 发表于 2024-12-12 20:43
这消息不要太好

不过用法可能和你想的不太一样...因为是纯gemm算力, 而转置/scale之类的能力还是普通CPU水平, 所以4,5,6代大xeon真香的地方在单独跑prefill(比如处理超长context)或者海量并发的generation, 因为kvcache大小不值钱

说白了这个算力自己玩玩程度的部署很难有效利用起来, 大部分自己玩玩的人不会跑prefill为主的任务, 也不会有海量吞吐

而且部署方式和常规平台差异比较大, 没充足的相关经验不建议直接上车这么玩....

----
我没8581c, 附个8488c的裸算力测试和超长context的prefill速率测试(qwen2.5-72b-instruct, bf16 weight, bf16 kv cache, prompt长度131071)给你, 这个prefill速率差不多有4卡L20的一半, 但是同样预算下kv cache大小可以给出好几TB, 非常适合vector search不好处理, kv cache稀疏存储效果不行, 得靠巨大kv cache强行作为长期记忆的系统
AD7[H$}[O][A3~1PN6]Z2RE.png

momo77989724 · 发表于 2024-12-12 21:56

os39000 发表于 2024-12-12 20:41
技嘉有两款C741

不想买技嘉刚上车了一个MZ33AR1 想换回超微哈哈

klxq15 · 发表于 2024-12-13 12:54

zhuifeng88 发表于 2024-12-12 20:46
不过用法可能和你想的不太一样...因为是纯gemm算力, 而转置/scale之类的能力还是普通CPU水平, 所以4,5,6 ...

这个是单路的结果吗

uprit · 发表于 2024-12-13 13:16

os39000 发表于 2024-12-12 20:42
显存，8581C容易搞定

用内存的吗？能多少通道呀？就算8通道也没多少带宽啊。
感觉还不如搞8卡2080ti 22G，差不多也是2w，带宽能有6、7百GB，显存也有176GB

用户 · 发表于 2024-12-13 13:45

本帖最后由用户于 2024-12-13 13:54 编辑

zhuifeng88 发表于 2024-12-12 20:46
不过用法可能和你想的不太一样...因为是纯gemm算力, 而转置/scale之类的能力还是普通CPU水平, 所以4,5,6 ...

卧槽，大佬多发点这方面评测.，我盯了amx好久了。这玩意transformers库支不支持，要怎么用？除了设成bf16，还需不需要flash_attn或者其他的库？

自己玩一般prefill是大头吧，prompt都是几十上百k token进去，出来也就几百token。我之前估算好像性能只有A100的几分之一啊，纯算力来讲可能不如3090。是怎么打赢L20的？

我自己还有一堆轻松用百GB内存的小模型要跑，只可惜bf16精度不太够会出错

zhuifeng88 · 发表于 2024-12-13 15:08

klxq15 发表于 2024-12-13 12:54
这个是单路的结果吗

是单路的

zhuifeng88 · 发表于 2024-12-13 15:20

本帖最后由 zhuifeng88 于 2024-12-13 15:25 编辑

用户发表于 2024-12-13 13:45
卧槽，大佬多发点这方面评测.，我盯了amx好久了。这玩意transformers库支不支持，要怎么用？除了设成bf16 ...

正经部署就不要想着transformers了, 不管谁家硬件跑的性能都离上限差很远

bf16 gemm dense算力a100是300t多点, 3090是70t, l20是120t, 这块纯算力哪来可能不如3090...

klxq15 · 发表于 2024-12-13 22:51

所以这个CPU是不是跑MoE模型性能很棒

网仙 · 发表于 2024-12-14 01:33

momo77989724 发表于 2024-12-12 19:54
双路可跑不满8581C 要降频的吧

技嘉的双路标称也不是跑385瓦的貌似。。

我发现8573C可以睿频到4.2G呢，这个是不是综合性能更有意义呢？

用户 · 发表于 2024-12-14 01:40

zhuifeng88 发表于 2024-12-13 15:20
正经部署就不要想着transformers了, 不管谁家硬件跑的性能都离上限差很远

bf16 gemm dense算力a100是300 ...

n卡算力我好像看成fp16那一行了。这么看来spr确实还是有性价比。之前看到只要1000刀的60核es，不过犹豫了一下，因为emr/gnr号称是1.3x/2.6x的提升，想着等等捡新u的垃圾。

你都是怎么部署的，能拿到token概率和梯度吗？

momo77989724 · 发表于 2024-12-14 09:55

本帖最后由 momo77989724 于 2024-12-14 10:17 编辑

网仙发表于 2024-12-14 01:33
我发现8573C可以睿频到4.2G呢，这个是不是综合性能更有意义呢？

单核稍微高点总体差不多好像

反正卖这个东西的贩子定价肯定有他道理除非特别偏门的型号

网仙 · 发表于 2024-12-14 10:55

momo77989724 发表于 2024-12-14 09:55
单核稍微高点总体差不多好像

反正卖这个东西的贩子定价肯定有他道理除非特别偏门的型号 ...

刚看了一下，单核高一点，但是全核睿频低一点，只有2.9，反映在全核心满负荷训练时，跟睿频3.1的比，那就差出不少了。

momoka · 发表于 2024-12-14 11:19

8581C 60C12T 300M L3才两个桌面热门U的价格

。。。。。

momo77989724 · 发表于 2024-12-14 12:03

网仙发表于 2024-12-14 10:55
刚看了一下，单核高一点，但是全核睿频低一点，只有2.9，反映在全核心满负荷训练时，跟睿频3.1的比，那就 ...

对啊那些人不比我们精多了

momo77989724 · 发表于 2024-12-14 12:06

momoka 发表于 2024-12-14 11:19
8581C 60C12T 300M L3才两个桌面热门U的价格。。。。。

U实际上投入并不大除非你买最高的型号或者行货。。。
主板内存价格高。。。来一套512内存还好 1T的话那价格酸爽

网仙 · 发表于 2024-12-14 12:19

momo77989724 发表于 2024-12-14 12:06
U实际上投入并不大除非你买最高的型号或者行货。。。
主板内存价格高。。。来一套512内存还好 1T的话 ...

请教下，这种马来CPU，在海鲜市场存量好像非常之大。而且都是正式版，价格比行货便宜太多，还是很超值的。
除了来源本身有点问题之外，在使用方面有什么问题没有？比如稳定性之类

momo77989724 · 发表于 2024-12-14 13:26

网仙发表于 2024-12-14 12:19
请教下，这种马来CPU，在海鲜市场存量好像非常之大。而且都是正式版，价格比行货便宜太多，还是很超值的 ...

马来本身很多是有磕碰
有部分是要报废的流出来的并不是正经渠道

正常装机你也不会弄成这成色啊。。。

而且这东西短期看不出啥有可能有内伤一段时间后就出问题  完全看运气我有一颗就是用了2年了突然掉通道

差价不大就买个拆机新  不要有明显划痕伤痕的

os39000 · 发表于 2024-12-14 19:22

zhuifeng88 发表于 2024-12-12 20:46
不过用法可能和你想的不太一样...因为是纯gemm算力, 而转置/scale之类的能力还是普通CPU水平, 所以4,5,6 ...

大佬这么说，意思是性价比低甚至压根跑不起来，那就继续折腾我的现有硬件好了，再加个
1600W电源就行，就是显存加起来也就48GB，不像想象中可以随便续杯。

os39000 · 发表于 2024-12-14 19:23

momo77989724 发表于 2024-12-12 21:56
不想买技嘉刚上车了一个MZ33AR1 想换回超微哈哈

我没看到EPYC的浮点评测数据

os39000 · 发表于 2024-12-14 19:23

klxq15 发表于 2024-12-13 22:51
所以这个CPU是不是跑MoE模型性能很棒

这正是我发帖的目的

os39000 · 发表于 2024-12-14 19:25

momoka 发表于 2024-12-14 11:19
8581C 60C12T 300M L3才两个桌面热门U的价格。。。。。

摸摸卡

账号		自动登录	找回密码
密码			加入我们

[CPU] 8581C和1080ti单精度浮点都在10TFLOPS左右