archxm
发表于 2025-1-29 18:19
YsHaNg 发表于 2025-1-29 18:08
对呀对呀 内存会坏的
估计也就你这种人,会给小企业这么推荐吧。每个月崩个一两回也,也可以接受
yangzi123aaa20
发表于 2025-1-29 18:40
带宽瓶颈再加核心也没啥用吧,不知道家用机那种核显配gddr显存的思路最多能堆多少容量
YsHaNg
发表于 2025-1-29 18:45
archxm 发表于 2025-1-29 10:19
估计也就你这种人,会给小企业这么推荐吧。每个月崩个一两回也,也可以接受 ...
我怎么敢推荐内存会坏的。。。
archxm
发表于 2025-1-29 18:49
YsHaNg 发表于 2025-1-29 18:45
我怎么敢推荐内存会坏的。。。
不好说,可能你想收维护费
YsHaNg
发表于 2025-1-29 18:52
archxm 发表于 2025-1-29 10:49
不好说,可能你想收维护费
it的活我可不干
archxm
发表于 2025-1-29 19:01
YsHaNg 发表于 2025-1-29 18:52
it的活我可不干
小企业都是一揽子解决方案,你不干,是不是嫌脏?
zhuifeng88
发表于 2025-1-29 19:12
kingofgu 发表于 2025-1-29 13:46
好消息是 llama.cpp现在只能吃到64c好像 应该是有core可以空出来跑其他任务的
推理瓶颈还是在显存池构建...
如果打算用llama.cpp的话那也不用考虑xeon了, llama.cpp的相关实现做的很烂, 要通用性有通用性, 要性能还是只有通用性, (或者战未来)
YsHaNg
发表于 2025-1-29 19:12
archxm 发表于 2025-1-29 11:01
小企业都是一揽子解决方案,你不干,是不是嫌脏?
时薪低 不灵活
zhuifeng88
发表于 2025-1-29 19:15
yangzi123aaa20 发表于 2025-1-29 18:40
带宽瓶颈再加核心也没啥用吧,不知道家用机那种核显配gddr显存的思路最多能堆多少容量 ...
家用机核显配gddr的带宽还没server平台cpu配ddr5高呢, 你太高估两者差距了
yangzi123aaa20
发表于 2025-1-29 19:27
zhuifeng88 发表于 2025-1-29 19:15
家用机核显配gddr的带宽还没server平台cpu配ddr5高呢, 你太高估两者差距了
毕竟在此之前都没有厂商认真琢磨过这个路线,说不定这次a/n的大内存小主机之后下一次发力就是512bit以上的显存控制器配一整版的gdr7了
zhuifeng88
发表于 2025-1-29 19:30
yangzi123aaa20 发表于 2025-1-29 19:27
毕竟在此之前都没有厂商认真琢磨过这个路线,说不定这次a/n的大内存小主机之后下一次发力就是512bit以上 ...
做不到的, 你看5090 dieshot, 512bit的gddr7控制器占满了3条边, 还有1条边要放pcie之类的io
也就是说, 如果想做512bit gddr7, 那芯片面积几乎不可能比5090更小了
这面积还做什么小主机, 晶圆嫌多也不是这么浪费的吧
archxm
发表于 2025-1-29 19:58
yangzi123aaa20 发表于 2025-1-29 19:27
毕竟在此之前都没有厂商认真琢磨过这个路线,说不定这次a/n的大内存小主机之后下一次发力就是512bit以上 ...
既然想工业化使用,为啥一定在民用商品找呢?
工业化不能找显卡厂家定制吗?
yangzi123aaa20
发表于 2025-1-29 20:00
archxm 发表于 2025-1-29 19:58
既然想工业化使用,为啥一定在民用商品找呢?
工业化不能找显卡厂家定制吗? ...
要跑本地推理不走这个路线没别的办法了[震惊]不然就只能用大厂提供的API咯
archxm
发表于 2025-1-29 20:02
yangzi123aaa20 发表于 2025-1-29 20:00
要跑本地推理不走这个路线没别的办法了不然就只能用大厂提供的API咯
那就很容易卡脖子了。再说这样就抬高显卡价格了,本来一个游戏用的东西,从技术角度看,模型训练,ai 相关, 还存在大量迷雾
kingofgu
发表于 2025-1-29 22:27
zhuifeng88 发表于 2025-1-29 19:30
做不到的, 你看5090 dieshot, 512bit的gddr7控制器占满了3条边, 还有1条边要放pcie之类的io
也就是说,...
走CoWoS先进硅互联 GPU和CPU平行连接到独立的io-Die上
当然现在的无限总线要提速扩容
总的来说Strix Halo看到点影子了
kingofgu
发表于 2025-1-29 22:28
zhuifeng88 发表于 2025-1-29 19:12
如果打算用llama.cpp的话那也不用考虑xeon了, llama.cpp的相关实现做的很烂, 要通用性有通用性, 要性能还 ...
没办法 llama.cpp本来就是为了能跑出现的
英子和AMD这时候不站出来推一把吗
momo77989724
发表于 2025-1-29 23:53
舒方 发表于 2025-1-29 18:01
这东西还能保修?那还挺便宜。
说说拉是店保 其实吧我心里默认2个都是0.。。
chungexcy
发表于 2025-1-30 09:30
本帖最后由 chungexcy 于 2025-1-30 09:46 编辑
kingofgu 发表于 2025-1-29 13:12
8581可能不行 ram总带宽才400GB/s不到
9004/9005 12通道 +50% 24通道的话1.2TB去了
最便宜的 9015 也不行,才 2ccd。你要跑满12通道,至少需要 4ccd(这才400GB/s),最好要 zen5 的 8ccd(zen4 8ccd是单GMI3=zen4 4ccd双GMI3)。
https://chipsandcheese.com/p/amds-turin-5th-gen-epyc-launched
换成 9254/9255,或者 9355,这样一算,还得加不少钱。
knd
发表于 2025-2-13 20:40
看8592es的cpu就1000多,支持amx正适合KTransformers,但主板快5000了,上32G*16 ddr5内存就1万多了,个人想玩但不是做it的纯玩具不如买api或者colab
网仙
发表于 2025-2-13 20:52
本帖最后由 网仙 于 2025-2-13 20:54 编辑
在多个地方看到讨论说双路因为两个CPU之间的通讯延迟,导致效率低,不如用单路。
单路的话,epyc有12通道,带宽上比至强8581c的8通道略有优势,但不支持AMX。
我原计划使用9565,12*64GB,本地运行671b的Q8。
有人说这个方案可以15tk/s,有人说只有个位数。
如果是真的能到15tk的性能,就可以冲了。
只是目前信息量有限,还在观望中。
补充:看了Ktransformer的方案,用单路4090或5090配合cpu,提升非常明显
chip_discovery
发表于 2025-2-13 21:10
网仙 发表于 2025-2-13 20:52
在多个地方看到讨论说双路因为两个CPU之间的通讯延迟,导致效率低,不如用单路。
单路的话,epyc有12通道, ...
epyc 9565 内存带宽 576 GB/s,单路如果跑1.58-bit的671B模型的话,内存带宽限制下的token上限也就 576/131=4.39 token/s,双路最多翻倍也才8,这还没考虑损耗。
网仙
发表于 2025-2-13 21:25
chip_discovery 发表于 2025-2-13 21:10
epyc 9565 内存带宽 576 GB/s,单路如果跑1.58-bit的671B模型的话,内存带宽限制下的token上限也就 576/1 ...
这么低的输出,完全不可用,那看来是没啥搞头了,浪费时间。
貌似没啥靠谱的Q4,Q8本地化方案了,纯GPU的方案确实有点小贵。
kingofgu
发表于 2025-2-13 21:47
chip_discovery 发表于 2025-2-13 21:10
epyc 9565 内存带宽 576 GB/s,单路如果跑1.58-bit的671B模型的话,内存带宽限制下的token上限也就 576/1 ...
现在是分开了 cpu处理完激活专家后将参数载到GPU里推理
MOE架构下只需要24-32g的显存就可以了
大概就是512内存加32显存跑q4的R1
chip_discovery
发表于 2025-2-13 22:05
网仙 发表于 2025-2-13 21:25
这么低的输出,完全不可用,那看来是没啥搞头了,浪费时间。
貌似没啥靠谱的Q4,Q8本地化方案了,纯GPU的 ...
可以看看ktransformers,但是AMX的处理器比较难找,
chip_discovery
发表于 2025-2-13 22:06
kingofgu 发表于 2025-2-13 21:47
现在是分开了 cpu处理完激活专家后将参数载到GPU里推理
MOE架构下只需要24-32g的显存就可以了
大概就是51 ...
ktransformers 是吧,我也在看,第四代志强可扩展硬件也不便宜
猪圈
发表于 2025-2-13 22:49
cpu不是问题,内存带宽是瓶颈~所以低配U
ncik20
发表于 2025-2-14 00:18
用户 发表于 2025-1-29 12:44
双路志强已经在路上了,768G内存有点贵了
买的什么型号?参考一下
8592+ES的靠谱么,才1000多。。。
xjr12000
发表于 2025-2-14 01:12
效率比ollama高的多的方式
机器配置要求也降低了不少
目前可以跑到13.9token
用户
发表于 2025-2-14 01:19
本帖最后由 用户 于 2025-2-14 02:58 编辑
ncik20 发表于 2025-2-14 00:18
买的什么型号?参考一下
8592+ES的靠谱么,才1000多。。。
我考虑了8461 $100,8592 $750,9480 $1100,税前价格。后来决定买9480。一是担心双路8592带宽不够用,二是考虑2x9480的128gb hbm如果日常够用,短期就不用再买16根ddr5内存了。不插满带宽低,插满就算256gb也要$1200,日后升级又就全废了。如果短期用不上本地超大杯模型,投资内存感觉有点亏,目测一两年后mrdimm出来,ddr5 4800/5600会有很多垃圾可以捡。看twitter上小道消息说8通道的GNR-WS在路上了。
机器周末到,装好发测试。我用这台机器不只是跑大模型,还有微调、其他深度学习开发为主。单体大内存可以省去显存不够要手动多卡优化的问题,方便开发需要大显存的模型。到时要测测intel默认的numa优化靠不靠谱。超大杯模型花$1000,用api也能用很久,api响应更快,没有保密数据不太需要自己配置。
我这没看到有1000人的8592。如果是1000人那可能足够便宜了。
xjr12000
发表于 2025-2-14 01:20
机器的配置和对应的模型规模如图
这是清华的一个项目,目前大大降低了对显卡和显存的要求