这个双路epyc本地部署完整650b R1的有搞头啊
768GB内存加双路最低配的u跑了 10tokens q8量化的完整模型才6000刀
国内估计还能压一压 虽然速度老爷车了一点 但我估计和cpu核数偏少还有AOCL库优化不到位有关
架构优化的话10万部署一套私有R1对大部分企业都很有吸引力啊 双路768.。。你是不是用32G单根了。。现在48G单根就贵50一根 考虑到amx指令集,cpu跑大模型应该还是至强适合吧。 本帖最后由 momo77989724 于 2025-1-29 12:45 编辑
af_x_if 发表于 2025-1-29 12:34
考虑到amx指令集,cpu跑大模型应该还是至强适合吧。
可能吧这些一般都是用牙膏跑的多 双路志强已经在路上了,768G内存有点贵了 momo77989724 发表于 2025-1-29 12:44
钱到位的话 肯定是牙膏强 哪怕是仿真类计算A也打不过。
闲鱼看看有没有呗,别忘了大船基本都是牙膏的,真要组便宜的服务器也是牙膏这边便宜。 用户 发表于 2025-1-29 12:44
双路志强已经在路上了,768G内存有点贵了
现在平台贵的就是内存。。。768G-1T价格还好再上去价格就不是翻一倍了 "老爷车了一点"具体是多少 token/s 啊.. 本帖最后由 momo77989724 于 2025-1-29 12:51 编辑
af_x_if 发表于 2025-1-29 12:45
闲鱼看看有没有呗,别忘了大船基本都是牙膏的,真要组便宜的服务器也是牙膏这边便宜。 ...
大家都有
A也有大船64核 1W出头的9554P 和8581C都是性价比很高的
而且AMD的散片还能保3年A降价起来 直接就是把正货当散片直接流出来 你都不用等大船
老的型号就没必要了 太弱了 momo77989724 发表于 2025-1-29 12:47
大家都有
A也有大船64核 1W出头的9554P 和8581C都是性价比很高的
8592+ es和8581c有说法吗?ebay上8592白菜价,8581还贵那么一点 本帖最后由 momo77989724 于 2025-1-29 12:56 编辑
用户 发表于 2025-1-29 12:49
8592+ es和8581c有说法吗?ebay上8592白菜价,8581还贵那么一点
国外不知道
ES没碰因为是正经用途 不能用ES 个人感觉5代ES应该也没大问题 因为没啥版本更迭
让我自己组的话就搞2个ES 冲了ES现在太便宜了。
8592应该是正式型号这些流出的少 都蜜汁高贵 8581C是定制的 大批量流出。。。正式版都快跌破8K了
momo77989724 发表于 2025-1-29 12:50
国外不知道
ES没碰因为是正经用途 不能用ES 个人感觉5代ES应该也没大问题 因为没啥版本更迭
确实,8581c不是es,企业用方便点 用户 发表于 2025-1-29 12:56
确实,8581c不是es,企业用方便点
其实很多企业只看官网的型号.。。8581定制版他们也不会选 momo77989724 发表于 2025-1-29 12:57
其实很多企业只看官网的型号.。。8581定制版他们也不会选
reddit上的原帖是 10token/s
以前没人搞私有部署主要是开源模型太弱了
现在有了用途 CPU推理应该会有更新动力
感觉双路的话跨NUMA的时候吃核间链路带宽有点多
kingofgu 发表于 2025-1-29 13:03
reddit上的原帖是 10token/s
以前没人搞私有部署主要是开源模型太弱了
现在有了用途 CPU推理应该会有更新 ...
论坛里之前有人组8581双路跑的吧 就月初
8581算力性价比应该算很高的
软件实用性我是一无所知 也就装装硬件。。。 momo77989724 发表于 2025-1-29 13:06
论坛里之前有人组8581双路跑的吧 就月初
8581算力性价比应该算很高的
8581可能不行 ram总带宽才400GB/s不到
9004/9005 12通道 +50% 24通道的话1.2TB去了 你们是不是对速度没概念 ... 单线程个位数 t/s 尝个鲜都觉得慢,别说正经放进工作流里了 [流汗] neavo 发表于 2025-1-29 13:17
你们是不是对速度没概念 ... 单线程个位数 t/s 尝个鲜都觉得慢,别说正经放进工作流里了 ...
毕竟300w的dgx不太现实啊
10到20个w能优化到什么地步 neavo 发表于 2025-1-29 13:17
你们是不是对速度没概念 ... 单线程个位数 t/s 尝个鲜都觉得慢,别说正经放进工作流里了 ...
自己装机终归是研究玩玩,比如拿个embedding,弄个lora。科研比较适合,纯用API性价比和云上没法比。云上延迟和gpu利用率都比本地更容易优化 再补几块M40或者P40 24g呢?一张就几百 kingofgu 发表于 2025-1-29 13:12
8581可能不行 ram总带宽才400GB/s不到
9004/9005 12通道 +50% 24通道的话1.2TB去了
epyc怕是算力瓶颈吧,只有2080Ti左右水平。但epyc挖矿能回本,实际成本可能比较低。 cpu跑最大的问题就是一开始跑占用拉满,别的事情不要做了。gpu好歹算协处理器。 用户 发表于 2025-1-29 13:27
自己装机终归是研究玩玩,比如拿个embedding,弄个lora。科研比较适合,纯用API性价比和云上没法比。云上 ...
不不不,任何用途这个位数的 t/s 都不够 [生病]
而且隔壁群友实测 D4 EPYC 也就 2t/s 。。。。。 我輩樹である 发表于 2025-1-29 13:37
cpu跑最大的问题就是一开始跑占用拉满,别的事情不要做了。gpu好歹算协处理器。 ...
好消息是 llama.cpp现在只能吃到64c好像 应该是有core可以空出来跑其他任务的
推理瓶颈还是在显存池构建 这玩意卡的太死了
NVL72提供单域13.5 TB全连接显存池还是太imba了 本帖最后由 用户 于 2025-1-29 14:06 编辑
neavo 发表于 2025-1-29 13:37
不不不,任何用途这个位数的 t/s 都不够
而且隔壁群友实测 D4 EPYC 也就 2t/s 。。。。。 ...
d4 epyc连avx512都没有,应该是算力瓶颈吧。有人有带amx的至强测一测吗?这方面的数据太少,我也是带着会翻车的准备来的。要是带宽瓶颈的话,cpu就可以不上那么多核。
超大模型个人玩本来也烧不起,不得已才会跑。 我輩樹である 发表于 2025-1-29 13:37
cpu跑最大的问题就是一开始跑占用拉满,别的事情不要做了。gpu好歹算协处理器。 ...
omp num threads有用吗 能到10t/s么
我跑其他模型72b的q4才2t/s
而且我下了32b的deepseek r1,也并没有感觉出推理速度比别的模型快 大企业凭啥用你这套?有啥吸引力?性价比?人家企业用,压根不在乎这种性价比,人家要稳定 momo77989724 发表于 2025-1-29 12:47
大家都有
A也有大船64核 1W出头的9554P 和8581C都是性价比很高的
而且AMD的散片还能保3年A降价起来...
这东西还能保修?那还挺便宜。 archxm 发表于 2025-1-29 09:58
大企业凭啥用你这套?有啥吸引力?性价比?人家企业用,压根不在乎这种性价比,人家要稳定 ...
对呀对呀 内存会坏的