找回密码
 加入我们
搜索
      
查看: 1070|回复: 14

[CPU] 有人试过EPYC 9755 + 24 * 64GB RDIMM的671B满血组合吗?

[复制链接]
发表于 2025-2-18 14:58 | 显示全部楼层 |阅读模式
EPYC 9755,网上Steam-Triad测出的内存带宽有845GB/s,这跟4090 GPU的1008GB/s也很接近了。

再加上 1536GB 的内存。
那有没有可能,
9755/9745/9645/...等Zen5/Zen5c核心的EPYC(配1个/2个?),这代AVX-512指令集具有完整的512bit数据路径,再用满内存通道/带宽,会不会出现不需要进一步量化部署671B完全满血版的性价比?

能达到10tks以上的话,就可以小企业/个人实用了。
(纯理论探讨,不喜勿喷)
发表于 2025-2-18 15:21 | 显示全部楼层
不用9755,9105这种就行,cpu不是瓶颈,内存带宽才是,

理论上是可以的,但是双路调度好想有问题,导致效率没有理论提升那么大
发表于 2025-2-18 15:38 | 显示全部楼层
富士通之前测过Stream带宽了;双路理论上是高,但实操时候受限于1dpc 1R 2R的内存组合,富哥可以跑1dpc 1R 96G*8,1R  5600;
大部分人都是2dpc,4400 / 4000;单路理论上限如下:

9004 2dpc  理论带宽 345.6G/s;
9005 2dpc 1r 有效带宽422.4G/s;
9005 2dpc 2r 有效带宽 384G/s;

请注意:表格中入门的诸如9174F  9135 这种也能跑较高带宽的原因是:他们本身就是16CCD, 每个CCD 只开一核,面向于云计算单核多开;
正常而言,起步得4CCD (32核)以上的才能跑满带宽

Q4 671B,整个B站我粗略统计的,双路跑最高也就6-8token/s,相对单路没啥明显提升。目前还是软件不够适配
富士通.jpg

评分

参与人数 1邪恶指数 +5 收起 理由
hawie + 5

查看全部评分

发表于 2025-2-18 15:58 | 显示全部楼层
H20 96G看小黄鱼9万多一片,农企核弹APU 200多G的显存据说也没太贵,低精度的全放在GPU上我看反馈速度也没那么快才是问题吧,不过不如等等啥子迭代新模型了,总归有会有适合现有硬件的模型的。
发表于 2025-2-18 18:20 | 显示全部楼层
Eypc系列要是后面整和一个40CU 显卡核心,

内存支持统一内存架构,

估计在AI市场应该很能打,

毕竟Eypc是12通道,

上高频DDR5 带宽还是够看
发表于 2025-2-18 19:13 来自手机 | 显示全部楼层
拿组里的双路9754服务器试了 内存分配在单个numa节点上 ollama 671b q4在2 tok/s
发表于 2025-2-18 19:17 来自手机 | 显示全部楼层
中小企业有需求,云服务那么先进,直接买 api 不行?
吃多了花大几百万搞本地部署
发表于 2025-2-18 19:59 | 显示全部楼层
yuwl3000 发表于 2025-2-18 19:17
中小企业有需求,云服务那么先进,直接买 api 不行?
吃多了花大几百万搞本地部署 ...

看微博,200-300w 部署MI300 多卡可以满足32人的同时请求,算算还可以的,毕竟不用担心数据外泄。
发表于 2025-2-18 20:08 | 显示全部楼层
别纯cpu跑,有条件的话加张4090,用ktransformers

有可能能到15+tokens/s
发表于 2025-2-18 22:50 | 显示全部楼层
KimmyGLM 发表于 2025-2-18 19:59
看微博,200-300w 部署MI300 多卡可以满足32人的同时请求,算算还可以的,毕竟不用担心数据外泄。 ...

现在网上百分之90%以上的业务都是跑在云端,比如全国人民都用的微信、企业爱用的钉钉,实在想不出中小企业有什么是不能上云的。真有保密级别的,也不会是中小企业了。
发表于 2025-2-18 23:28 | 显示全部楼层
配4090的话用ktrans混合部署应该可以到15tps-20tps都可能,反正是云装机,有800G内存带宽,应该轮到计算端overhead。
发表于 2025-2-19 01:11 | 显示全部楼层
当你的专业一点的知识被ai学会了,那么你也就离淘汰不远了
教会徒弟饿死师傅
何况ai只要学会,就等会全世界都学会了
发表于 2025-2-19 01:47 | 显示全部楼层
yopmai 发表于 2025-2-18 18:20
Eypc系列要是后面整和一个40CU 显卡核心,

内存支持统一内存架构,

根本不需要整合gpu核心,徒增编程难度。
发表于 2025-2-19 01:53 | 显示全部楼层
avx512应该没啥用,要amx
发表于 2025-2-19 01:55 | 显示全部楼层
gdens84 发表于 2025-2-18 06:13
拿组里的双路9754服务器试了 内存分配在单个numa节点上 ollama 671b q4在2 tok/s

呃,这么惨吗
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-2-19 04:48 , Processed in 0.011834 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表