云霄 发表于 2025-2-18 14:58

有人试过EPYC 9755 + 24 * 64GB RDIMM的671B满血组合吗?

EPYC 9755,网上Steam-Triad测出的内存带宽有845GB/s,这跟4090 GPU的1008GB/s也很接近了。

再加上 1536GB 的内存。
那有没有可能,
9755/9745/9645/...等Zen5/Zen5c核心的EPYC(配1个/2个?),这代AVX-512指令集具有完整的512bit数据路径,再用满内存通道/带宽,会不会出现不需要进一步量化部署671B完全满血版的性价比?

能达到10tks以上的话,就可以小企业/个人实用了。
(纯理论探讨,不喜勿喷)

猪圈 发表于 2025-2-18 15:21

不用9755,9105这种就行,cpu不是瓶颈,内存带宽才是,

理论上是可以的,但是双路调度好想有问题,导致效率没有理论提升那么大

KimmyGLM 发表于 2025-2-18 15:38

富士通之前测过Stream带宽了;双路理论上是高,但实操时候受限于1dpc 1R 2R的内存组合,富哥可以跑1dpc 1R 96G*8,1R5600;
大部分人都是2dpc,4400 / 4000;单路理论上限如下:

9004 2dpc理论带宽 345.6G/s;
9005 2dpc 1r 有效带宽422.4G/s;
9005 2dpc 2r 有效带宽 384G/s;

请注意:表格中入门的诸如9174F9135 这种也能跑较高带宽的原因是:他们本身就是16CCD, 每个CCD 只开一核,面向于云计算单核多开;
正常而言,起步得4CCD (32核)以上的才能跑满带宽

Q4 671B,整个B站我粗略统计的,双路跑最高也就6-8token/s,相对单路没啥明显提升。目前还是软件不够适配

deepfishing 发表于 2025-2-18 15:58

H20 96G看小黄鱼9万多一片,农企核弹APU 200多G的显存据说也没太贵,低精度的全放在GPU上我看反馈速度也没那么快才是问题吧,不过不如等等啥子迭代新模型了,总归有会有适合现有硬件的模型的。

yopmai 发表于 2025-2-18 18:20

Eypc系列要是后面整和一个40CU 显卡核心,

内存支持统一内存架构,

估计在AI市场应该很能打,

毕竟Eypc是12通道,

上高频DDR5 带宽还是够看

gdens84 发表于 2025-2-18 19:13

拿组里的双路9754服务器试了 内存分配在单个numa节点上 ollama 671b q4在2 tok/s

yuwl3000 发表于 2025-2-18 19:17

中小企业有需求,云服务那么先进,直接买 api 不行?
吃多了花大几百万搞本地部署

KimmyGLM 发表于 2025-2-18 19:59

yuwl3000 发表于 2025-2-18 19:17
中小企业有需求,云服务那么先进,直接买 api 不行?
吃多了花大几百万搞本地部署 ...

看微博,200-300w 部署MI300 多卡可以满足32人的同时请求,算算还可以的,毕竟不用担心数据外泄。

Vossk 发表于 2025-2-18 20:08

别纯cpu跑,有条件的话加张4090,用ktransformers

有可能能到15+tokens/s

yuwl3000 发表于 2025-2-18 22:50

KimmyGLM 发表于 2025-2-18 19:59
看微博,200-300w 部署MI300 多卡可以满足32人的同时请求,算算还可以的,毕竟不用担心数据外泄。 ...

现在网上百分之90%以上的业务都是跑在云端,比如全国人民都用的微信、企业爱用的钉钉,实在想不出中小企业有什么是不能上云的。真有保密级别的,也不会是中小企业了。

我輩樹である 发表于 2025-2-18 23:28

配4090的话用ktrans混合部署应该可以到15tps-20tps都可能,反正是云装机,有800G内存带宽,应该轮到计算端overhead。

xjr12000 发表于 2025-2-19 01:11

当你的专业一点的知识被ai学会了,那么你也就离淘汰不远了
教会徒弟饿死师傅
何况ai只要学会,就等会全世界都学会了

Neo_Granzon 发表于 2025-2-19 01:47

yopmai 发表于 2025-2-18 18:20
Eypc系列要是后面整和一个40CU 显卡核心,

内存支持统一内存架构,


根本不需要整合gpu核心,徒增编程难度。

赫敏 发表于 2025-2-19 01:53

avx512应该没啥用,要amx

赫敏 发表于 2025-2-19 01:55

gdens84 发表于 2025-2-18 06:13
拿组里的双路9754服务器试了 内存分配在单个numa节点上 ollama 671b q4在2 tok/s

呃,这么惨吗

BetaHT 发表于 2025-2-19 08:04

yuwl3000 发表于 2025-2-18 22:50
现在网上百分之90%以上的业务都是跑在云端,比如全国人民都用的微信、企业爱用的钉钉,实在想不出中小企 ...

还是有不少独家信息不适合上云。而且云也不便宜,多对话几次,使用量就猛增了

khgdxee 发表于 2025-2-19 09:55

赫敏 发表于 2025-2-19 01:55
呃,这么惨吗

纯CPU真的很慢,我用9684x*2,差不多也是2tps,感觉不如买api[困惑]
页: [1]
查看完整版本: 有人试过EPYC 9755 + 24 * 64GB RDIMM的671B满血组合吗?