英伟达介绍Grace CPU Superchip设计，性能和能效优于Milan EPYC...

ym168 发表于 2023-1-24 09:26

英伟达在去年的GTC 2022上，推出了Grace CPU Superchip。这是在原有的Grace CPU基础上做了进一步的扩展，将两个Grace CPU封装在一起。其使用了Arm的Neoverse N2平台，支持PCIe 5.0、DDR5、HBM3、CCIX 2.0和CXL 2.0等特性。

近日，英伟达官方介绍了Grace CPU Superchip的设计、性能和能效。

Grace CPU Superchip采用了台积电4N工艺制造，共有144个Arm v9架构CPU内核，以4个128位的方式配置了两组SIMD矢量指令集，分别是SVE2和NEON，每核心64KB一级指令缓存、64KB一级数据缓存、1MB二级缓存，所有核心共享234MB三级缓存。利用英伟达设计的可扩展一致性总线（SCF），这种网状结构和分布式缓存架构，通过3.2TB/s的超高带宽，实现内核、NVLink-C2C、内存和I/O之间的联通。

Grace CPU Superchip支持带有ECC校验功能的LPDDR5x内存，带宽达到了1TB/s，最大容量为960GB；配备了8组PCIe 5.0 x16接口，总带宽1TB/s，还有用于管理的额外低速PCIe通道；通过英伟达最新的NVLink-C2C进行连接，提供了900 GB/s的连接带宽，以保证芯片到芯片互联之间的低延迟和一致性，并允许连接的设备在同一个内存池上工作；支持Arm的AMBA CHI协议，支持与其他互连处理器完全一致且安全的加速器；TDP为500W。

英伟达称，Grace CPU Superchip的FP64峰值运算性能达到了7.1TFlops。相比于AMD基于Zen 3架构的EPYC 7763处理器（64核心）搭建的双路系统，Grace CPU Superchip性能是其1.5至2.5倍，能效是其2至3.5倍。

英伟达表示，Grace CPU Superchip旨在为AI和高性能计算应用设计，可以运行所有英伟达软件堆栈和平台，包括了NVIDIA RTX、HPC、NVIDIA AI和NVIDIA Omniverse。通过NVLink-C2C技术，可以创建由CPU、GPU、DPU、NIC和SoC等不同类型的小芯片构建的集成产品。由于支持最新推出的UCIe规范，未来其定制芯片可以选择使用UCIe或NVLink-C2C的方式进行互连。

https://www.expreview.com/86548.html

赫敏发表于 2023-1-24 11:07

cpu是V2不是N2，N2浮点弱很多

coconutgallo 发表于 2023-1-24 13:36

听起来很厉害但是可能没赶上好时候。。。等这玩意儿能铺货了大陆之外数据中心疯狂扩张的增速差不多就开始放缓可能抢不到多少增量（不像epyc）
加上这么“高端”的芯片很可能要限制出口大陆
再加上不迭代个一两代大客户估计也不放心上量
[偷笑]

raindian 发表于 2023-1-24 18:36

赫敏发表于 2023-1-24 11:07
cpu是V2不是N2，N2浮点弱很多

根据Nvidia的开发者资料和白皮书，明确是V2

V2和N2都支持SVE2，虽然SIMD实际宽度会高一倍，但性能的主要差距在于整个流水线并行宽度，包括ALU和SIMD部分，已经对应供应数据和指令的部分

aibo 发表于 2023-1-24 19:35

这货的主要任务还是搭建老黄牌超算吧

往外估计暂时也不会有人买

风车车 发表于 2023-1-24 22:06

黄仁勋要寻找增长点，无非就是如下3个点：

（1）digital twin，类似技术最终延伸为omniverse
（2）超大规模神经网络训练和超算
（3）元宇宙

相比epyc和xeon，grace可能拿不到很多hpc订单

但是向投资商说明自己在努力，这点很关键

用户发表于 2023-1-25 06:29

风车车发表于 2023-1-24 22:06
黄仁勋要寻找增长点，无非就是如下3个点：

（1）digital twin，类似技术最终延伸为omniverse

老黄搞软件的能力很强，说不定定制个python版本跑得比谁都快。

风车车 发表于 2023-1-25 09:52

用户发表于 2023-1-25 06:29
老黄搞软件的能力很强，说不定定制个python版本跑得比谁都快。

[困惑]

即便是numpy之类的用jax这种带jit的库取代，大家也不愿意在性能关键的地方写python，谷歌大神写的jax不一定性能比定制版的差

风车车 发表于 2023-1-25 09:55

用户发表于 2023-1-25 06:29
老黄搞软件的能力很强，说不定定制个python版本跑得比谁都快。

比如即便是完全jit化的jax，也会出现很多不必要的overhead，比如jax.jit在每个函数调用时才将python函数展开成c++函数，因为不知道输入类型无法预先操作

这样的设计对于c++程序员来说显然不太美好

T.JOHN 发表于 2023-1-25 10:20

风车车发表于 2023-1-24 22:06
黄仁勋要寻找增长点，无非就是如下3个点：

（1）digital twin，类似技术最终延伸为omniverse

这个领域和级别的合作更讲政商关系，甲骨文用上了安培，其他云也就一起买了。乙方起码没什么到处炒作，老老实实一年一步按时间节点交货。老黄业界名声那样，这乙方每次做了都比甲方强势，没人愿意买，除了要整套超算的研发中心走全包服务。苏妈比老黄强的地方就是会搞关系，多拉合作伙伴，当然割韭菜是这两人一致的共识。

beowulf 发表于 2023-1-25 11:20

aibo 发表于 2023-1-24 19:35
这货的主要任务还是搭建老黄牌超算吧

往外估计暂时也不会有人买

这个主要是老黄基本全包了，其他人没饭吃。
老黄的处理器（内存焊死），老黄的显卡，老黄的ib网络。

留给其他人的就是存储了。

imluvian 发表于 2023-1-25 12:51

8片LPDDR5X，不知道是怎么做的ECC。难道做的inline[狂笑]

glamor 发表于 2023-1-27 19:58

性能是1.5倍，估计会被加速比扯回去很多，最终能不能打过eypc都是问题。

页: [1]

Chiphell - 分享与交流用户体验's Archiver

英伟达介绍Grace CPU Superchip设计， 性能和能效优于Milan EPYC...

英伟达介绍Grace CPU Superchip设计，性能和能效优于Milan EPYC...