找回密码
 加入我们
搜索
      
查看: 13378|回复: 37

[CPU] intel Sapphire Rapids 四代 8468V 简易测试

[复制链接]
发表于 2023-2-14 08:08 | 显示全部楼层 |阅读模式
本帖最后由 kevinlin 于 2023-2-14 12:02 编辑

今天到了 Intel Xeon  四代 8468V 随便测测 给有需要的朋友参考
再加个6458Q 的随便测试


8648V

8648V
8468V 2023-02-13 094956.jpg
R23 2023-02-14 075813.jpg
R23 2023-02-14 075709.jpg
微信图片_20230214080736.jpg

6458Q

6458Q
微信图片_20230214120047.png
螢幕擷取畫面 2023-02-14 115631.jpg

评分

参与人数 2邪恶指数 +25 收起 理由
wesleyxy + 20 666
Miaow1874 + 5 感谢分享

查看全部评分

发表于 2023-2-14 09:03 | 显示全部楼层
看这个CPUZ单核心,架构升级的作用太大了
发表于 2023-2-14 09:07 | 显示全部楼层
大佬试过启用那些加速模块吗,民用市场有没有啥可以玩那些加速模块的场景
发表于 2023-2-14 09:11 | 显示全部楼层
所以2x48c的r23能跑8万7,轮子说的6万的那个是几核的
发表于 2023-2-14 09:12 来自手机 | 显示全部楼层
本帖最后由 用户 于 2023-2-14 09:15 编辑

这货avx512和amx fp32和bf16算力能有多少?能不能直接用内存跑transformer
发表于 2023-2-14 09:13 | 显示全部楼层
跑渲染时候功耗电压频率大概多少。算下每瓦特分数有没提升。
发表于 2023-2-14 09:19 | 显示全部楼层
aibo 发表于 2023-2-14 09:11
所以2x48c的r23能跑8万7,轮子说的6万的那个是几核的

56吧 单路 。。。楼主这个是双路
发表于 2023-2-14 09:20 来自手机 | 显示全部楼层
aibo 发表于 2023-2-14 09:11
所以2x48c的r23能跑8万7,轮子说的6万的那个是几核的

看来真得是56核。我本来估算是12400 6大核1.2万分 120瓦,48核个降频怎么也能350瓦凹出6万。
发表于 2023-2-14 09:38 | 显示全部楼层
单核比我e5v2洋垃圾高了一倍
发表于 2023-2-14 09:47 | 显示全部楼层
1165G7:小老弟你行不行啊
发表于 2023-2-15 00:21 | 显示全部楼层
用户 发表于 2023-2-14 09:12
这货avx512和amx fp32和bf16算力能有多少?能不能直接用内存跑transformer

跑avx512 算全核2.4G
那么拿楼主这颗8468来说
avx512的fp32 算力 = 2.4 * 48 * 64=7372.8Gflops bf16的算力再乘2.
换算到AMX ,假设频率不变,则再各乘16.
发表于 2023-2-15 00:31 来自手机 | 显示全部楼层
gtv 发表于 2023-2-15 00:21
跑avx512 算全核2.4G
那么拿楼主这颗8468来说
avx512的fp32 算力 = 2.4 * 48 * 64=7372.8Gflops bf16的 ...

乘16够狠,不敢信。n计算卡的bf16 tensor好像才1000t,这货能有200t?到时看看工作站上能给多少
发表于 2023-2-15 00:44 来自手机 | 显示全部楼层
性能真强大,价格更强大,
发表于 2023-2-15 01:10 | 显示全部楼层
还是6458好一些,单核多核都更强。不过8468V的96C没跑过64C属实不应该。

顺便6458这个多核已经超过96C的EPYC 7R32双路了,单核更是薄纱,不过功耗和价格也“薄纱”就是了hhh
发表于 2023-2-15 08:09 | 显示全部楼层
本帖最后由 Flanker 于 2023-2-15 08:24 编辑

这代就想看看6458q和9374f的实测差距

剩下大部分对位产品9004靠频率就压死了,牙膏的多核boost频率实在太低
发表于 2023-2-15 11:00 | 显示全部楼层
缓存大 游戏好
发表于 2023-2-15 11:13 来自手机 | 显示全部楼层
__|__ 发表于 2023-2-15 01:10
还是6458好一些,单核多核都更强。不过8468V的96C没跑过64C属实不应该。

顺便6458这个多核已经超过96C的EP ...

双路7R32跑分和楼主这个差不多,6458一个32C怎么个薄纱……
发表于 2023-2-15 11:42 | 显示全部楼层
用户 发表于 2023-2-15 00:31
乘16够狠,不敢信。n计算卡的bf16 tensor好像才1000t,这货能有200t?到时看看工作站上能给多少 ...

参考的是 https://www.intel.com/content/ww ... solution-brief.html page4 里的 Figure 6.

AMX本质上就是tensor core. xeon 也开始带DSA了.
发表于 2023-2-15 12:17 | 显示全部楼层
本帖最后由 赫敏 于 2023-2-14 23:26 编辑
用户 发表于 2023-2-13 20:20
看来真得是56核。我本来估算是12400 6大核1.2万分 120瓦,48核个降频怎么也能350瓦凹出6万。 ...


56核才6w那真是菜的抠脚。不过这代应该是功耗不够,350w*2的64核反杀330w*2的96核了

也难怪Intel只字不提传统cpu性能,一直在吹那几个加速卡因为实在拿不出手功耗还高
发表于 2023-2-15 12:19 | 显示全部楼层
gtv 发表于 2023-2-14 11:21
跑avx512 算全核2.4G
那么拿楼主这颗8468来说
avx512的fp32 算力 = 2.4 * 48 * 64=7372.8Gflops bf16的 ...

现在amx连指令集都不算,因为只有一条指令就是矩阵乘法。光一条就能跑一个框架吗
发表于 2023-2-15 13:24 来自手机 | 显示全部楼层
本帖最后由 用户 于 2023-2-15 14:28 编辑
赫敏 发表于 2023-2-15 12:19
现在amx连指令集都不算,因为只有一条指令就是矩阵乘法。光一条就能跑一个框架吗 ...


当年我买了两块titan v,单精度14T,就是看有一个120T的fp16 tensor。最后测出来跑模型有tensor比没tensor只快1.5~2倍。现在跑fp16的模型好像还能和3090拼一拼。

比较好奇spr跑模型的速度。前两天听朋友说拿7950x跑过transformer inference,因为有avx512效率还不错。用gpu凑100g+内存还是挺贵的。自己做模型的话model parallel的代码也不太好写。现在想跑100g+模型想便宜也得4张3090,如果cpu的话插个128g内存,就看算力带宽能不能跟上。
发表于 2023-2-15 21:56 | 显示全部楼层
赫敏 发表于 2023-2-15 12:19
现在amx连指令集都不算,因为只有一条指令就是矩阵乘法。光一条就能跑一个框架吗 ...

这就是onednn的事情了
发表于 2023-2-15 22:17 | 显示全部楼层
gtv 发表于 2023-2-15 00:21
跑avx512 算全核2.4G
那么拿楼主这颗8468来说
avx512的fp32 算力 = 2.4 * 48 * 64=7372.8Gflops bf16的 ...

linux下实测,单核AMX的INT8有5T,bf16是2.5T,多核心自己算
发表于 2023-2-15 22:20 | 显示全部楼层
gtv 发表于 2023-2-15 21:56
这就是onednn的事情了

AMX只负责矩阵运算,剩余的,还有2个AVX512单元,pytorch和tensorflow框架都支持了
 楼主| 发表于 2023-2-15 23:28 | 显示全部楼层
本帖最后由 kevinlin 于 2023-2-15 23:32 编辑

个人的感觉这些软件只能参考而已 并不是十分准确  测试分数 CPUZ 8470Q 52C 104T>8458V 48C 96T>6458Q 32C 64T然而 R23 却相反 6458Q>8458V>8470Q  当然 这些功能没有开启 英特尔® AMX 英特尔® IAA 英特尔® QAT 英特尔® DLB 英特尔® DSA 英特尔® SGX 英特尔® HBM 至于开启后有多大的差异 让专业人员去测试
发表于 2023-2-15 23:40 | 显示全部楼层
gtv 发表于 2023-2-15 00:21
跑avx512 算全核2.4G
那么拿楼主这颗8468来说
avx512的fp32 算力 = 2.4 * 48 * 64=7372.8Gflops bf16的 ...

8468V这货计算里面的 64怎么来的,AVX的512位宽 / FP32的32位 * 该型号的 FMA数量2 = 32啊
发表于 2023-2-16 00:00 | 显示全部楼层
跑r23的功耗分别是多少?
发表于 2023-2-16 00:10 | 显示全部楼层
allenxml 发表于 2023-2-15 23:40
8468V这货计算里面的 64怎么来的,AVX的512位宽 / FP32的32位 * 该型号的 FMA数量2 = 32啊 ...


1fma=1mul+1add, conv操作最后累加也是同理, 都是算2次计算的
发表于 2023-2-16 00:28 | 显示全部楼层
有没有8490H的测试
目前INTEL阵营多核最强
60核心120线程
发表于 2023-2-16 15:25 | 显示全部楼层
这性能是和功耗线性相关的吗
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2024-9-20 20:38 , Processed in 0.014950 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表