▲测试现场
1.6▐ BIOS
本次测试的BIOS版本:W790 WS 3.04
▲开机显示DDR5-4400,这是因为W790 WS是四通道内存,如果插入4条这个内存就是1DPC,如果插入8条就是2DPC,所以DDR5-4800 JEDEC内存插入后就会因为2DPC模式而降频为DDR5-4400,
▲SKHynix HMCG88AEBRA115N内存的设置页面,可以看到内存的详细JEDEC参数,SPD中的JEDEC参数有4800 5000 5200三组,最高到DDR5-5200 42 42 42 83。
▲在设置内存频率的页面可以看到最高支持到DDR5-8800。
▲直接可以将内存设置到JEDEC参数中的DDR5-5200,这个没有问题。
▲一次点亮
▲然后尝试进攻一下DDR5-5400,小参降到36 36 35 72,
▲点亮成功,下面继续进攻DDR5-5600失败,VDDQ电压加到1.5V一样,无法开机卡47和70。看起来,SKHynix HMCG88AEBRA115N并不是一款适合极限超频的内存,毕竟这是服务器版本的RDIMM内存。
▲CPU-Z定下参数,接着用AIDA64测试下内存读写。
▲DDR5-5400 36 36 35 7的内存读写测试,这大概是SKhynix HMCG88AEBRA115N这8根内存在ASRock W790 WS上的基本表现。
▲这块主板的默认性能是完全解锁TDP的,可以看到PL1和PL2已经默认打开到最高4095,PL1 TIME也是最高的448,PL2 TIME也是最高的0.438。这意味着开机即可获得解锁TDP后的CPU性能。为了测试方便区分,我将此状态标记为:
Xeon w9-3495X ASRock default
这里的几个关键选项的解读为:
Current Limit Override(电流限制倍频)
[Disabled](禁用)无电流限制倍频。
[Enabled](启用)可利用此选项以 1/8 A 为增量调整电流限制倍频。
PL1 Power Limit(PL1 功率限制)
允许配置封装功率限制 1(瓦)。超过此限制时,在一段时间后 CPU 倍频会降低。较低限制可保护 CPU 和节能,较高限制可提高性能。
PL1 Time Window(PL1 时间窗口)
允许配置超过长持续时间功率限制时经过多长时间 CPU 倍频降低。
PL2 Power Limit(PL2 功率限制)
允许配置封装功率限制 2(瓦)。超过此限制时,CPU 倍频将被立即降低。较低限制可保护 CPU 和节能,较高限制可提高性能。
PL2 Time Window(PL2 时间窗口)
允许配置超过长持续时间功率限制时经过多长时间 CPU 倍频降低。
▲开机进入WIN11 X64 22H2直接测试CINEBENCH R23获得72287pts ,此时TDP 502W,最高核心温度57度。
▲直接进入Intel XTU调试
Voltage Offset = -0.175V
Performance Active-Core Tuning/47 to 56 = 41
点击Apply测试,最终获得R23 97305的成绩,TDP 923W,CPU最高温度88度。这是全核4.1GHz的成绩。AIO360水冷差不多也就这个水准,破不了10万也很简单,毕竟是四通道不是八通道。
▲
PL1 Power Limit(PL1 功率限制)=350W
PL1 Time Window(PL1 时间窗口)=420W
即可还原Xeon w9-3495X到默认的原始性能。
为了测试方便区分,我将此状态标记为:
Xeon w9-3495X ASRock 350w
▲
在以上的350W状态下,我们继续进行降压调整:
OC Tweaker\FIVR Configuration\Core Voltage Offset = 100-150
OC Tweaker\FIVR Configuration\Offset Prefix = [-]
图中我是直接降压0.15V。
为了测试方便区分,我将此状态标记为:
Xeon w9-3495X ASRock offset
▲开机进入WIN11 X64 22H2直接测试CINEBENCH R23获得72156pts ,此时TDP 382W,最高核心温度50度。
▲PCIe lane支持拆分,PCIE1是CPU PCIe,PCIe Gen5 x16的插槽,可以拆分如上。
▲PCIE2和5是CPU PCIe,PCIe Gen5 x8的插槽,双槽共享PCIe Gen5 x16,可以拆分如上。
▲PCIE3是CPU PCIe,PCIe Gen5 x16的插槽,可以拆分如上。
PCIE4是来自PCH的PCIe Gen4 x4,所以这里就没有设置拆分选项。
▲OC Tweaker\Voltage Configuration\Voltage Mode默认是Stable Mode
▲此时,CPU VCCIN Load-line Calibration Level3有3级可选。
▲OC Tweaker\Voltage Configuration\Voltage Mode设置为OC Mode
▲此时,CPU VCCIN Load-line Calibration Level3有5级可选。
▲关于内存电压,OC Tweaker也可以很方便的设置DDR5的VDD、VDDQ和VPP电压。
▲关于Xeon w-3495X的最大睿频设计,此主板也给与定义了,CPU0和1核心为最高睿频4.8GHz,CPU2和3核心为4.7GHz,其余核心最大睿频均为4.6GHz。
▲Phoronix test suite测试套件是目前LINUX下可用的最全面的测试和基准测试平台,它提供了可扩展的框架,可以轻松地添加新的测试。该软件旨在以干净,可复制且易于使用的方式有效地执行定性和定量基准。Phoronix test suite测试套件可用于比较计算机的性能,硬件验证以及持续集成/性能管理。所以以下测试集成在Phoronix test suite框架下进行。
▲phoronix-test-suite硬件与环境配置一览表
Scaling Driver显示的Intel_pstate powersave也就是电源模式请务必调节为Performance模式,否则性能会跌10-20%。
为确保新设备的兼容性,Linux Kernel升级到了6.3.5。
▲因为有Michael Larabel的测试数据以及phoronix-test-suite良好的同步测量能力,所以我才有了远程对比的测试对象:
AMD DAYTONA_X(RYM1009B BIOS)
8 x DDR4-3200 ECC RDIMM 32GB
AMD EPYC 7713 64-Core @ 2.00GHz (64 Cores / 128 Threads),
AMD EPYC 7763 64-Core @ 2.45GHz (64 Cores / 128 Threads),
AMD EPYC 7773X 64-Core @ 2.20GHz (64 Cores / 128 Threads),
AMD DAYTONA_X(RYM1009B BIOS)
16 x DDR4-3200 ECC RDIMM 32GB
2 x AMD EPYC 7713 64-Core @ 2.00GHz (128 Cores / 256 Threads),
2 x AMD EPYC 7763 64-Core @ 2.45GHz (64 Cores / 128 Threads),
2 x AMD EPYC 7773X 64-Core @ 2.20GHz (64 Cores / 128 Threads),
AMD Titanite_4G (RTI1002E BIOS),
12 x DDR5-4800 ECC RDIMM 64GB
AMD EPYC 9374F 32-Core @ 4.31GHz (32 Cores / 64 Threads),
AMD EPYC 9554 64-Core @ 3.76GHz (64 Cores / 128 Threads),
AMD EPYC 9654 96-Core @ 3.71GHz (96 Cores / 192 Threads),
AMD Titanite_4G (RTI1002E BIOS),
24 x DDR5-4800 ECC RDIMM 64GB
2 x AMD EPYC 9374F 32-Core @ 4.31GHz (32 Cores / 64 Threads),
2 x AMD EPYC 9554 64-Core @ 3.76GHz (64 Cores / 128 Threads),
2 x AMD EPYC 9654 96-Core @ 3.71GHz (96 Cores / 192 Threads),
Intel M50CYP2SB2U(SE5C6200.86B.0022.D08.2103221623 BIOS),
8 x DDR4-3200 ECC RDIMM 32GB
Intel Xeon Platinum 8362 @ 3.60GHz (32 Cores / 64 Threads),
Intel Xeon Platinum 8380 @ 3.40GHz (40 Cores / 80 Threads),
Intel M50CYP2SB2U(SE5C6200.86B.0022.D08.2103221623 BIOS),
16 x DDR4-3200 ECC RDIMM 32GB
2 x Intel Xeon Platinum 8362 @ 3.60GHz (64 Cores / 128 Threads),
2 x Intel Xeon Platinum 8380 @ 3.40GHz (80 Cores / 160 Threads),
Quanta Cloud S6Q-MB-MPS (3A10.uh BIOS),
8 x DDR5-4800 ECC RDIMM 64GB
Intel Xeon Platinum 8490H @ 3.50GHz (60 Cores / 120 Threads),
Quanta Cloud S6Q-MB-MPS (3A10.uh BIOS),
16 x DDR5-4800 ECC RDIMM 64GB
2 x Intel Xeon Platinum 8490H @ 3.50GHz (120 Cores / 240 Threads),
ASRock W790 WS(3.04 BIOS),
8 x DDR5-5200 ECC RDIMM 32GB
Intel Xeon w9-3945X@ 4.80GHz (56 Cores / 112 Threads),
为了方便了解ASRock W790 WS这片主板对CPU的调教能力,我们测试Xeon w9-3495X的三个状态:
Xeon w9-3495X ASRock default
此为开机默认的状态,不锁TDP。
Xeon w9-3495X ASRock 350w
此为CPU的原始TDP状态,基础TDP 350W,最大加速TDP 420W。
Xeon w9-3495X ASRock offset
在原始TDP状态下,降低0.15V核心电压,降压超频。
2.1▐ 深度学习
2.1.1▐ OneDNN
这是对英特尔 oneDNN 作为深度神经网络的英特尔优化库的测试,并利用其内置的 benchdnn 功能。结果是报告的总执行时间。在更名为英特尔 oneAPI 工具包的一部分之前,英特尔 oneDNN 以前称为 DNNL(深度神经网络库)和 MKL-DNN。
oneDNN 是一个开源的跨平台高性能库,包含用于深度学习应用程序的基本构建模块。基于英特尔平台,oneDNN 对深度神经网络进行 op 级以及指令集级的优化。
支持关键数据类型:float32、float16、bfloat16 和 int8实现了丰富的操作:convolution, matrix multiplication, pooling, batch normalization, activation functions, recurrent neural network (RNN) cells, and long short-term memory (LSTM) cells支持自动检测硬件指令,提高神经网络在指定硬件,特别是英特尔 CPU 和 GPU 上的执行速度。
2.1.1.1 数据类型:f32 ▲F32中,单路之王依然是EPYC 9554,双路之王依然是Xeon Platinum 8490H 2P,双路AMD依然优化不佳。
2.1.1.2 数据类型:u8s8f32,Optimized For AVX-512▲对于像 Intel oneDNN 这样可以大量利用 AVX-512 的工作负载,Xeon w9-3495X四通道5200内存加上降压超频也无法超越八通道的Xeon Platinum 8490H。
2.1.1.3 数据类型:bf16bf16bf16,Optimized For AVX-512 + VNNI▲当用上AVX-512 BF16之后,Xeon w9-3495X ASRock offset轻松碾压一切对手,排名第二,仅次于双路Xeon Platinum 8490H 2P,AMD全线被性能压制。
单路1P下:结果越低越好
当数据类型为F32时候:
Xeon w9-3495X ASRock 350w:0.688ms
Xeon w9-3495X ASRock default:0.736ms
Xeon w9-3495X ASRock offset:0.709ms
EPYC 9554:0.595ms
当数据类型为u8f8f32时候
Xeon w9-3495X ASRock 350w:0.615ms
Xeon w9-3495X ASRock default:0.602ms
Xeon w9-3495X ASRock offset:0.597ms
EPYC 9554:0.280ms
当数据类型为bf16bf16bf16时候
Xeon w9-3495X ASRock 350w:0.299ms
Xeon w9-3495X ASRock default:0.279ms
Xeon w9-3495X ASRock offset:0.271ms
EPYC 9554:0.400ms
通过AVX-512 + VNNI的调整优化,Xeon w9-3495X的提升超过100%,而EPYC 9554明显在传统AVX512调整优化下收益更好,提升超过100%。
Xeon w9-3495X ASRock offset明显功耗温度以及性能都达到比较好的平衡,极力推荐。
2.1.2▐ OpenVINO 2022.2.de
这是对英特尔 OpenVINO 的测试,这是一个围绕神经网络的工具包,使用其内置的基准测试支持并分析各种模型的吞吐量和延迟。
2.1.2.1 Model:face-detection-0206基于 ResNet152 作为backbone的人脸识别
FP16▲这个测试无论是FP16还是FP16-INT8,双路最佳是Xeon Platinum 8490H 2P,单路之王是Xeon Platinum 8490H,而Xeon w9-3495X紧随其后。把模型的数据精度从FP16调整到FP16-INT8混合精度,以上三颗CPU的性能都出现了翻倍提升。不知为何,EPYC 9554在ResNet152 backbone下的FP16精度性能只有Xeon w9-3495X的60-70%。
2.1.2.2 Model:age-gender-recognition-retail-0013用于同步年龄/性别识别的全卷积网络。该网络能够识别 [18, 75] 岁范围内的人的年龄/性别。
FP16▲单路1P:FP16
Xeon w9-3495X ASRock 350w:79004.64FPS
Xeon w9-3495X ASRock default:76487.02FPS
Xeon w9-3495X ASRock offset:82163.44FPS
Xeon Platinum 8490H:82929.06FPS
EPYC 9554:97379.56FPS
这个目标检测测试单路无疑EPYC 9554更加优秀。
2.1.2.3 Model:person-detection-0106这是一个基于 ResNet50为Backbone的Cascade R-CNN 架构的人体检测器。
FP16▲单路1P:FP16 结果越高越好
Xeon w9-3495X ASRock 350w:22.56FPS
Xeon w9-3495X ASRock default:22.25FPS
Xeon w9-3495X ASRock offset:23.46FPS
Xeon Platinum 8490H:25.55FPS
EPYC 9554:23.07FPS
单路1P:FP32 结果越高越好
Xeon w9-3495X ASRock 350w:22.91FPS
Xeon w9-3495X ASRock default:22.73FPS
Xeon w9-3495X ASRock offset:23.47FPS
Xeon Platinum 8490H:25.53FPS
EPYC 9554:23.12FPS
这个目标检测测试Xeon w9-3495X和EPYC 9554性能基本一致,Xeon w9-3495X的两种超频模式都追不上Xeon Platinum 8490H。
只能说对于大众化的基于 ResNet50为Backbone的Cascade R-CNN 架构,两家的CPU都优化到位了。
2.1.2.4 Model:weld-porosity-detection-0001这是一个气孔焊缝识别模型。它在捕获焊嘴的视频流上运行,并报告是否未发生焊接、产生的焊缝是否良好或焊缝是否多孔。
FP16▲
单路1P:FP16
Xeon w9-3495X ASRock 350w:7329.8FPS
Xeon w9-3495X ASRock default:7345.31FPS
Xeon w9-3495X ASRock offset:7344.66FPS
Xeon Platinum 8490H:7839.51FPS
EPYC 9554:4165.02FPS
单路1P:FP16-INT8
Xeon w9-3495X ASRock 350w:15835.23FPS
Xeon w9-3495X ASRock default:15714.07FPS
Xeon w9-3495X ASRock offset:16633.90FPS
Xeon Platinum 8490H:16703.64FPS
EPYC 9554:8228.7FPS
把模型的数据精度从FP16调整到FP16-INT8混合精度,以上三颗CPU的性能都出现了翻倍提升。EPYC 9554只有Xeon w9-3495X性能的50-60%。
值得一提的是,双路2P相比单路1P,Xeon Platinum 8490H 2P测试性能接近1P的300%,而EPYC 9554 2P测试性能接近1P的200%,所以这一轮无需多言,Xeon Platinum 8490H 单路双路都是最佳。
2.1.2.5 Model:person-vehicle-bike-detection-2004这是一个基于MobileNetV2 为Backbone的人、车辆、自行车检测器。
FP16▲
单路1P:FP16
Xeon w9-3495X ASRock 350w:3407.38FPS
Xeon w9-3495X ASRock default:3384.41FPS
Xeon w9-3495X ASRock offset:3552.71FPS
Xeon Platinum 8490H:3656.94FPS
EPYC 9554:4762.61FPS
这个目标检测测试无疑EPYC 9554更加优秀。
2.1.2.6 Model:machine-translation-nar-en-de-0002这是一个基于非自回归 Transformer 拓扑结构的英德机器翻译模型。该模型是在内部数据集上训练的。
FP16▲
单路1P:FP16 结果越高越好
Xeon w9-3495X ASRock 350w:413.56FPS
Xeon w9-3495X ASRock default:410.93FPS
Xeon w9-3495X ASRock offset:436.05FPS
Xeon Platinum 8490H:448.59FPS
EPYC 9554:449.76FPS
这个测试EPYC 9554更加优秀。
2.1.3▐ Neural Magic DeepSparse 1.1
2.1.3.1 Model:CV Classification,ResNet-50 ImageNet - Asynchronous Multi-Stream+
▲
单路1P:
Xeon w9-3495X ASRock 350w:727.14 items/sec
Xeon w9-3495X ASRock default:766.58 items/sec
Xeon w9-3495X ASRock offset:769.62 items/sec
Xeon Platinum 8490H:769.78 items/sec
EPYC 9554:843.37 items/sec
单路EPYC 9554更佳。
2.1.3.2 NLP Token Classification, BERT base uncased conll2003 - Asynchronous Multi-Stream:▲
单路1P:结果越高越好
Xeon w9-3495X ASRock 350w:46.97 items/sec
Xeon w9-3495X ASRock default:46.74 items/sec
Xeon w9-3495X ASRock offset:46.70 items/sec
Xeon Platinum 8490H:47.45 items/sec
EPYC 9554:35.66 items/sec
单路Xeon Platinum 8490H更佳
2.1.3.3 NLP Question Answering, BERT base uncased SQuaD 12layer Pruned90 - Asynchronous Multi-Stream▲
单路1P:
Xeon w9-3495X ASRock 350w:177.62 items/sec
Xeon w9-3495X ASRock default:183.81 items/sec
Xeon w9-3495X ASRock offset:183.79 items/sec
Xeon Platinum 8490H:192.99 items/sec
EPYC 9554:329.12 items/sec
单路EPYC 9554更佳。
2.1.3.4 NLP Document Classification, oBERT base uncased on IMDB - Asynchronous Multi-Stream▲
单路1P:
Xeon w9-3495X ASRock 350w:44.98 items/sec
Xeon w9-3495X ASRock default:46.69 items/sec
Xeon w9-3495X ASRock offset:46.76 items/sec
Xeon Platinum 8490H:47.29 items/sec
EPYC 9554:35.69 items/sec
单路Xeon Platinum 8490H更佳。
2.1.3.5 CV Detection,YOLOv5s COCO - Scenario: Asynchronous Multi-Stream
单路1P:结果越高越好
Xeon w9-3495X ASRock 350w:213.34 items/sec
Xeon w9-3495X ASRock default:217.27 items/sec
Xeon w9-3495X ASRock offset:224.64 items/sec
Xeon Platinum 8490H:318.93 items/sec
EPYC 9554:364.79 items/sec
单路EPYC 9554更佳。
2.2.1▐ GROMACS 2022.1
使用 water_GMX50 数据的 GROMACS(GROningen MAchine for Chemical Simulations)分子动力学包测试。此测试配置文件允许在基于 CPU 和 GPU 的 GROMACS 构建之间进行选择。
▲
单路1P:结果越高越好
Xeon w9-3495X ASRock 350w:7.809 Ns/day
Xeon w9-3495X ASRock default:8.302 Ns/day
Xeon w9-3495X ASRock offset:8.281 Ns/day
Xeon Platinum 8490H:8.581 Ns/day
EPYC 9554:9.641 Ns/day
单路EPYC 9554更佳.
2.2.2▐ NAND 2.14
NAMD 是一种并行分子动力学代码,专为大型生物分子系统的高性能模拟而设计。NAMD 由伊利诺伊大学香槟分校贝克曼高级科学技术研究所的理论与计算生物物理学组开发。
▲
单路1P:结果越低越好
Xeon w9-3495X ASRock 350w:0.30138 days/ns
Xeon w9-3495X ASRock default:0.30487 days/ns
Xeon w9-3495X ASRock offset:0.26422 days/ns
Xeon Platinum 8490H:0.29076 days/ns
EPYC 9554:0.28101 days/ns
单路Xeon w9-3495X ASRock offset更佳。
2.3.1▐ Graph500 3.0
这是 Graph500 参考实现的基准测试,Graph500 是一个专注于数据密集型负载的 HPC 基准测试,通常在超级计算机上针对复杂的数据问题进行测试。Graph500主要强调被测硬件的通信子系统。
▲单路1P:结果越高越好
Xeon w9-3495X ASRock 350w:
295971000 sssp median_TEPS
420424000 sssp max_TEPS
Xeon w9-3495X ASRock default
299466000 sssp median_TEPS
409817000 sssp max_TEPS
Xeon w9-3495X ASRock offset
325217000 sssp median_TEPS
425951000 sssp max_TEPS
Xeon Platinum 8490H
323231000 sssp median_TEPS
450856000 sssp max_TEPS
EPYC 9554
351607000 sssp median_TEPS
441522000 sssp max_TEPS
单路EPYC 9554性能更佳,平均TDP也更低。
2.3.2▐ High Performance Conjugate Gradient 3.1
HPCG 是高性能共轭梯度,是 Sandia National Lans 的一项新科学基准,与 HPCC 相比,它专注于使用现代现实世界工作负载进行超级计算机测试。
▲
单路1P:
Xeon w9-3495X ASRock 350w:28.75 GFLOPS
Xeon w9-3495X ASRock default:25.18 GFLOPS
Xeon w9-3495X ASRock offset:25.65 GFLOPS
Xeon Platinum 8490H:32.08 GFLOPS
EPYC 9554:42.81 GFLOPS
单路EPYC 9554性能更佳,平均TDP也更低。这里Xeon w9-3495X的3个结果有点倒置,看一下功耗就可以明白,Xeon w9-3495X ASRock 350w平均功耗跑到了350W,三者最高。
2.3.3▐ NAS Parallel Benchmarks 3.4
NPB,NAS Parallel Benchmarks,是美国宇航局为高端计算机系统开发的基准测试。此测试配置文件当前使用 NPB 的 MPI 版本。
▲
单路1P:
EPYC 9554无论在性能还是功耗已经彻底碾压Xeon w9-3495X和Xeon Platinum 8490H。
2.4▐ 编译和构建
2.4.1▐ Timed LLVM Compilation 13.0
该测试计算编译/构建 LLVM 编译器堆栈所需的时间。
2.4.1.1 Build System:Ninja ▲
单路1P:结果越低越好
Xeon w9-3495X ASRock 350w:144.43 seconds
Xeon w9-3495X ASRock default:144 seconds
Xeon w9-3495X ASRock offset:133.44 seconds
Xeon Platinum 8490H:155.92 seconds
EPYC 9554:117.76 155.92 seconds
单路EPYC 9554构建项目时间更短,平均TDP也更低。
2.4.1.1 Build System:Unix Makefiles▲
单路1P:结果越低越好
Xeon w9-3495X ASRock 350w:191.92 seconds
Xeon w9-3495X ASRock default:188.75 seconds
Xeon w9-3495X ASRock offset:185.56 seconds
Xeon Platinum 8490H:216.61 seconds
EPYC 9554:180.48 seconds
单路EPYC 9554构建项目时间更短,平均TDP也更低。
2.4.2▐ Timed Godot Engine Compilation 3.2.3
此测试计算编译 Godot 游戏引擎所需的时间。Godot 是一种流行的开源跨平台 2D/3D 游戏引擎,使用 SCons 构建系统构建并面向 X11 平台。
▲
单路1P:结果越低越好
Xeon w9-3495X ASRock 350w:41.66 seconds
Xeon w9-3495X ASRock default:40.56 seconds
Xeon w9-3495X ASRock offset:40.3 seconds
Xeon Platinum 8490H:42.13 seconds
EPYC 9554:34.53 seconds
单路EPYC 9554构建项目时间更短,平均TDP也更低。
2.4.3▐ Timed Linux Kernel Compilation 5.18
该测试计算在默认配置下构建 Linux 内核所需的时间。
2.4.3.1 Build:defconfig▲
单路1P:结果越低越好
Xeon w9-3495X ASRock 350w:28.10 seconds
Xeon w9-3495X ASRock default:25.88 seconds
Xeon w9-3495X ASRock offset:26.15 seconds
Xeon Platinum 8490H:31.65 seconds
EPYC 9554:24.73 seconds
单路EPYC 9554构建项目时间更短,平均TDP也更低。
2.4.3.2 build:allmodconfig
▲
单路1P:结果越低越好
Xeon w9-3495X ASRock 350w:260 seconds
Xeon w9-3495X ASRock default:261.66 seconds
Xeon w9-3495X ASRock offset:226.89 seconds
Xeon Platinum 8490H:263.29 seconds
EPYC 9554:185.81 seconds
单路EPYC 9554构建项目时间更短,平均TDP也更低。
2.4.4▐ Timed Node.js Compilation 18.8
这个测试配置文件计算了从源代码构建/编译 Node.js 本身所花费的时间。Node.js 是一个基于 Chrome V8 JavaScript 引擎构建的 JavaScript 运行时,而它本身是用 C/C++ 编写的。
▲
单路1P:结果越低越好
Xeon w9-3495X ASRock 350w:150.18 seconds
Xeon w9-3495X ASRock default:146.69 seconds
Xeon w9-3495X ASRock offset:140.87 seconds
Xeon Platinum 8490H:174.87 seconds
EPYC 9554:133.20 seconds
单路EPYC 9554构建项目时间更短,平均TDP也更低.
2.5▐ 渲染
2.5.1▐ blender 3.3Blender 是一个开源 3D 创建和建模软件项目。该测试是使用各种示例文件对 Blender 的 Cycles 性能进行的测试。目前支持通过 NVIDIA OptiX 和 NVIDIA CUDA 进行的 GPU 计算,以及用于 AMD Radeon GPU 的 HIP 和用于 Intel Graphics 的 Intel oneAPI。本次测试我们使用纯CPU进行渲染。
2.5.1.1 Model:BMW27
▲
单路1P:结果越低越好
Xeon w9-3495X ASRock 350w:26.75 seconds
Xeon w9-3495X ASRock default:29.48 seconds
Xeon w9-3495X ASRock offset:24.86 seconds
Xeon Platinum 8490H:25.52 seconds
EPYC 9554:18.39 seconds
单路EPYC 9554构建项目时间更短,平均TDP也更低。
2.5.1.2 Model:Classroom
▲
单路1P:结果越低越好
Xeon w9-3495X ASRock 350w:74.33 seconds
Xeon w9-3495X ASRock default:82.41 seconds
Xeon w9-3495X ASRock offset:65.42 seconds
Xeon Platinum 8490H:67.68 seconds
EPYC 9554:46 seconds
单路EPYC 9554构建项目时间更短,平均TDP也更低。
2.5.1.3 Model:Fishy Cat
▲
单路1P:结果越低越好
Xeon w9-3495X ASRock 350w:38.75 seconds
Xeon w9-3495X ASRock default:40.03 seconds
Xeon w9-3495X ASRock offset:34.12 seconds
Xeon Platinum 8490H:36.05 seconds
EPYC 9554:24 seconds
单路EPYC 9554构建项目时间更短,平均TDP也更低。
2.5.1.4 Model:Barbershop▲
单路1P:结果越低越好
Xeon w9-3495X ASRock 350w:304 seconds
Xeon w9-3495X ASRock default:322 seconds
Xeon w9-3495X ASRock offset:268 seconds
Xeon Platinum 8490H:278 seconds
EPYC 9554:172 seconds
单路EPYC 9554构建项目时间更短,平均TDP也更低。
2.5.1.5 Model:Barcelona
▲
单路1P:结果越低越好
Xeon w9-3495X ASRock 350w:97.11 seconds
Xeon w9-3495X ASRock default:102.68 seconds
Xeon w9-3495X ASRock offset:84.75 seconds
Xeon Platinum 8490H:88.96 seconds
EPYC 9554:58.18 seconds
单路EPYC 9554构建项目时间更短,平均TDP也更低。
2.6.1▐ Embree 3.13
Intel Embree 是一组高性能光线追踪内核,用于在 CPU(和通过 SYCL 的 GPU)上执行并支持 SSE、AVX、AVX2 和 AVX-512 等指令集。Embree 还支持使用英特尔 SPMD 程序编译器 (ISPC)。
▲
单路1P:
这一轮解锁TDP效果卓著,Xeon w9-3495X ASRock default直接压制Xeon w9-3495X ASRock offset以及Xeon Platinum 8490H。
2.6.2▐ Intel Open Image Denoise 1.4.0
Open Image Denoise 是一个用于光线追踪的去噪库,是 oneAPI 渲染工具包的一部分。
英特尔®Open Image Denoise的目的是提供一个开放,高质量,高效且易于使用的去噪库,该库可显着减少基于光线跟踪的渲染应用程序中的渲染时间。它可以滤除随机光线跟踪方法(例如路径跟踪)固有的蒙特卡洛噪声,从而将每个像素所需的样本数量减少了甚至多个数量级(取决于所需的与地面真实程度的接近程度)。一个简单但灵活的C / C ++ API确保该库可以轻松集成到大多数现有或新的渲染解决方案中。
英特尔®Open Image Denoise库的核心是一组基于深度学习的高效降噪滤波器,这些滤波器经过训练可以处理从1 spp到几乎完全收敛的每个像素(spp)的各种样本。因此,它适用于预览和最终帧渲染。滤镜可以仅使用嘈杂的颜色(美感)缓冲区对图像进行降噪,或者为了保留尽可能多的细节,还可以选择使用辅助特征缓冲区(例如反照率,正常)。大多数渲染器都将此类缓冲区作为任意输出变量(AOV)支持,或者通常可以轻松实现。
尽管该库附带了一组预训练的过滤器模型,但并非必须使用这些模型。为了针对特定渲染器,样本数量,内容类型,场景等优化过滤器,可以使用随附的训练工具包和用户提供的图像数据集来训练模型。
英特尔®Open Image Denoise支持基于英特尔®64架构的CPU和兼容架构,并且可以在从笔记本电脑,工作站到HPC系统中的计算节点的任何设备上运行。它的效率足够高,不仅适合于脱机渲染,而且取决于所使用的硬件,还适合于交互式光线跟踪。
Intel Open Image Denoise内部建立在Intel oneAPI深度神经网络库(oneDNN)之上,并自动利用Intel SSE4,AVX2和AVX-512等现代指令集来实现高去噪性能。要运行Intel Open Image Denoise,需要至少支持SSE4.1的CPU。
2.6.2.1 RT.ldr_alb_nrm.3840x2160▲
单路1P:
这个测试Xeon w9-3495X ASRock default和Xeon w9-3495X ASRock offset以及Xeon Platinum 8490H其实都差不多。表现基本一致。区别在于功耗和温度。
2.6.2.2 RTLightmap.hdr.4096x4096▲
单路1P:
Xeon w9-3495X ASRock offset以及Xeon Platinum 8490H性能一致持平。功耗上Xeon w9-3495X ASRock offset略低。
2.6.3▐ OSPray 2.10
Intel OSPray 是一种便携式光线追踪引擎,用于高性能、高保真科学可视化。OSPray 构建了英特尔的 Embree 和英特尔 SPMD 程序编译器 (ISPC) 组件,作为 oneAPI 渲染工具包的一部分。
2.6.3.1 gravity_spheres_volume/dim_512/ao/real_time▲
单路1P:
不是所有测试,解锁TDP都可以收到奇效,这个测试明显偏爱降压超频,Xeon w9-3495X ASRock offset一路压制Xeon Platinum 8490H以及EPYC 9554,仅次于EPYC 9654。
2.6.3.2 gravity_spheres_volume/dim_512/pathtracer/real_time▲
单路1P:
这个测试Xeon w9-3495X ASRock offset压制Xeon Platinum 8490H,略输给EPYC 9554。
2.6.4▐ OSPRay Studio 0.11
英特尔 OSPRay Studio 是一个开源的交互式可视化和光线追踪软件包。OSPRay Studio 使用 Intel OSPRay,这是一种用于高性能、高保真可视化的便携式光线追踪引擎。OSPRay 构建了英特尔的 Embree 和英特尔 SPMD 程序编译器 (ISPC) 组件,作为 oneAPI 渲染工具包的一部分。
2.6.4.1 1 - 4K - 1 - Path Tracer
2.6.4.2 1 - 4K - 16 - Path Tracer
2.6.4.3 1 - 4K - 32 - Path Tracer
2.6.4.4 2 - 4K - 1 - Path Tracer2.6.4.5 2 - 4K - 16 - Path Tracer
2.6.4.6 2 - 4K - 32 - Path Tracer
2.6.4.7 3 - 4K - 1 - Path Tracer
2.6.4.8 3 - 4K - 16 - Path Tracer
2.6.4.9 3 - 4K - 32 - Path Tracer▲这个Intel自己写的光线追踪测试竟然一点都不黑AMD,EPYC 9554仍然比Xeon w9-3495X和Xeon Platinum 8490H要快。
2.7.1▐ PyBench 2018-02-16
▲
这个测试考验的就是主频高,功耗高,所以Xeon w9-3495X ASRock default顺理成章拔的头筹。
2.7.2▐ PyPerformance 1.0.0
PyPerformance 是参考 Python 性能基准套件。
2.7.2.1 crypto_pyaes▲
这个测试考验的就是主频高,其次是IPC效能高,然后是功耗高,所以Xeon w9-3495X 和EPYC 9374F轮流拔得头筹。
2.8.1▐ QuantLib 1.21
QuantLib 是一个围绕量化金融的开源库/框架,用于建模、交易和风险管理场景。QuantLib 是用带有 Boost 的 C++ 编写的,其内置的基准测试报告了 QuantLib Benchmark Index 基准测试得分。
▲
单路1P:
这个测试EPYC 9374F以高主频优势领跑
2.9.1▐ 7-ZIP Compression 22.01这是对 7-Zip 压缩/解压缩及其集成基准功能的测试
▲
单路1P:
AMD优势项目,核心数多评分就高
▲但凡涉及神经网络的计算,Intel总是会让你看到奇迹。本以为这个项目会完全是INTEL天下,结果被EPYC 9374F 2P双路拔得头筹。
2.10.2▐ asmFish 2018-07-23
asmFish 是用 Assembly 编写的高级国际象棋基准测试。
▲典型核心数定胜负的项目
▲所有测试结束,系统统计了以下平均CPU功耗,Xeon w9-3495X ASRock offset在全程测试中成绩大部分领先于Xeon w9-3495X ASRock default,同样功耗也比Xeon w9-3495X ASRock default低。
对于机器学习类测试,我做了一下数据回归统计:
无论单路双路,Intel Xeon Platinum 8490H一骑绝尘,最佳性能,单路其次是Xeon w9-3495X ASRock offset,可以发现降压超频效果明显,Xeon w9-3495X ASRock default这种默认解功耗锁的性能在这个环节并不能得到较好的发挥,单路仅排名第四!
对于分子动力学类测试的数据回归统计:
单路EPYC 9654最佳性能,Intel Xeon Platinum 8490H只能排第三,Xeon w9-3495X ASRock offset第四,Xeon w9-3495X ASRock default仅第五。降压超频效果在这轮同样优于解锁功耗超频。
我们接着看下A黑的Intel API类测试的数据回归统计:
这一轮即使intel再如何优化,也无法阻挡EPYC 9654的单路王座,但同时,双路王座也被Intel Xeon Platinum 8490H妥妥拿下,Xeon w9-3495X ASRock offset发挥神勇,直接拿下单路第二,超越了EPYC 9554以及Intel Xeon Platinum 8490H,而Xeon w9-3495X ASRock default得单路排名仅仅第六。降压超频效果在这轮同样优于解锁功耗超频。
CPU渲染类得数据回归统计:
CPU渲染类测试一直是INTEL软肋,因为很公平,谁核心多谁主频高,谁就厉害,本轮其他结果都很公平,除了单路56核的Xeon w9-3495X ASRock offset超越了60核Intel Xeon Platinum 8490H,此类测试降压超频对于IPC的提升巨大。而Xeon w9-3495X ASRock default得单路排名仅仅第六。降压超频效果在这轮同样优于解锁功耗超频。
科学计算类测试的数据回归统计:
此类测试比渲染类测试更加公平,核心数权重要大于主频提升,所以单路56核的Xeon w9-3495X ASRock offset自然不是60核Intel Xeon Platinum 8490H的对手,单路排名第四,而Xeon w9-3495X ASRock default得单路排名仅仅第五。降压超频效果在这轮同样优于解锁功耗超频。
高性能计算类测试的数据回归统计:
此类测试一样是公平类测试,核心数权重要大于主频提升,单路56核的Xeon w9-3495X ASRock offset自然不是60核Intel Xeon Platinum 8490H的对手,单路排名第四,而Xeon w9-3495X ASRock default得单路排名仅仅第六。降压超频效果在这轮同样优于解锁功耗超频。
Python类测试的数据回归统计:
这类测试根本跑不满TDP,追求的是最大主频值,根据IPC效能判定,那么此轮,无论单路双路,Xeon w9-3495X ASRock 350w的原始性能反而是最好的,其次Xeon w9-3495X ASRock default解锁TDP超频,再次是Xeon w9-3495X ASRock offset降压超频,然后才轮的上EPYC 9374F双路。很明显,如果是Python类应用,那么Xeon w9-3495X确属不二选择。
创作者类测试的数据回归统计:
对创作者而言,双路中60核心的Intel Xeon Platinum 8490H要优于64核心EPYC 9554,单路中56核心的Xeon w9-3495X ASRock offset要优于60核心的Intel Xeon Platinum 8490H,仅次于EPYC 9554,排名第三,而Xeon w9-3495X ASRock default得单路排名仅仅第六。降压超频效果在这轮同样优于解锁功耗超频。
编译类测试的数据回归统计:
无论单路双路,一颗EPYC 9654压制Intel全家,单路性能Xeon w9-3495X ASRock offset排名第三,仅次于EPYC 9554,Xeon w9-3495X ASRock default得单路排名仅仅第四,降压超频效果在这轮同样优于解锁功耗超频。
对测试全程的温度我进行了监控统计,平均温度最高的是Xeon w9-3495X ASRock offset,在56.97度,最高温度68。而Xeon w9-3495X ASRock default平均温度在56.97度,最高温度75度。不得不说,ABEE SPR360的温度压制效果是非常出色的。
1、ASRock的默认解锁功耗,在正常应用层面的效果并不好,当然也有部分测试有正面效果,大部分测试不如降压超频,部分测试甚至不如350W的原始效能。当然我也可以理解这种做法,毕竟四通道,不做点激进的操作怎么在市场去争?
2、ASRock的高端差异化设计思路有点偏激,无论ASRockRack怎么说,既然W790拿过来做,就要做八通道,你做个四通道,难道让ASRockRack去做八通道版本?
3、BMC IPMI是灵魂,不要只看到眼前的那么点GAMING市场,因为它很快会持续缩小,做WS或者Server主板一定要去做BMC IPMI,连ASUS PRO WS都意识到这个问题的重要性了。ASRockRack产能不够的时候,一样会用ASRock去交单。IPMI+TB4 差异化不就出来了吗?
4、做PCIEX16插槽布局一定要考虑7槽位,你甚至可以只做四条出来,但请一定要考虑到双槽涡轮卡上四张,本作的槽位只能满足三张双槽涡轮卡,这就很不合理,但凡多卡还是会优先考虑2张或者4张可以NVLINK的卡,比如TESLA A100 80GB,或者QUADRO A6000 48GB,抑或RTX 3090 Blower 24GB,这些都是需要双卡NVLINK的,所以设计的时候就要考虑4张双槽卡的占位问题,因为这类客户四卡一定会上两组NVLINK!RTX 4090或者QUADRO A6000 ADA这种不支持NVLINK的卡,他的选择面反而宽很多, 什么主板都能上。挂着WS的名头就要做WS的事情,不要挂着WS名头心里想着GAMING。玩GAMING的人配一台PC 5W到头了,但是CDN的玩主一张TESLA A100 80G就是10万了。
4、因为AI计算的热点爆开,现在11槽的机箱越来越多了,其实在主板的底部可以设计STX的侧向PCIE槽,可以插入一块转接子卡,将PCIE X16拆分X8 X8或者X4 X4 X8,这种操作,在服务器主板领域很常见,通过这种操作就可以让主板的PCIE插槽得到扩展,或者用户自己用软排线也可以完成拓展,这又是一个差异化的体现。用户可以在全塔8槽机箱里使用四卡,也可以在11槽的机箱使用5卡。
5、ASRock W790 WS虽然有诸多的小缺点,但不失为一块优秀的主板,TB4+双10G电口网卡+PCIe4.0 x4 U.2+wifi的配置豪华大气上档次,性能稳定,在测试中也可以看到即使四通道的性能,也足以和8通道的Intel Xeon Platinum 8490H叫板,这个产品能让GAMING玩家和CREATOR看看满满的诚意,但是在我看来ASRock还能做的更好,更完美。
感谢观看!