找回密码
 加入我们
搜索
      
查看: 5729|回复: 0

[PC硬件] Meteor Lake架构详解 全新LP E-Core和NUC引入,让PC进入高能效AI时代

[复制链接]
发表于 2023-9-20 21:10 | 显示全部楼层 |阅读模式
两年前推出的Alder Lake处理器可以说是Intel的一次重大的技术革新,这是混合架构x86处理器首次大规模推向消费市场,它和它的后继者Raptor Lake可以说是相当成功的产品,也为后续产品打下基础。而今天在英特尔on技术创新大会上推出的Meteor Lake处理器采用分离式模块架构,由四个独立的模块组成,并通过Foveros 3D封装技术连接,其计算模块首次采用Intel 4制程工艺打造,使Meteor Lake成为Intel史上能效最高的客户端平台。

MeteorLake_01 (1).jpg

同时Meteor Lake也是首款内置神经网络处理单元NPU的Intel CPU,这也就意味着在未来搭载着Meteor Lake的笔记本在大规模售出以后,会为人工智能在PC端实现非常好的普及化的这样一个动作。

接下来我们来快速的看下组成Meteor Lake的四个模块:

MeteorLake_02 (1).jpg

本次会议对于计算模块所透露的信息并不多,已知的是它将采用Intel 4制程工艺,包含6个P-Core与8个E-Core,性能核架构升级至Redwood Cove,能效核升级至Crestmont架构,依然使用环形总线。

MeteorLake_03 (1).jpg

SOC模块里面包含了全新的低功耗岛E-Core,用与新型低功耗负载,进一步优化节能与性能间的平衡。NPU也整合在SOC模块内,还有包括一些常规的连接模块,Wi-Fi 6E和蓝牙模块是整合在SOC模块内的,如果想用Wi-Fi 7则需要外接,以往整合在核显里面的媒体处理计算单元现在也整合到了SOC模块内,还包含显示输出单元和内存控制器,支持8K HDR和AV1格式的视频编解码,支持HDMI 2.1与DP 2.1的视频输出,这个SOC模块就相当于一个迷你的小CPU。

MeteorLake_04 (1).jpg

图形模块采用了Intel最新的ARC图形架构,Meteor Lake能够提供上一代两倍的图形性能,能够在核显中提供独显级别的性能,支持光线追踪,有更全面的DX12功能集。

MeteorLake_05 (1).jpg

IO模块就如它的名字那样是用来提供IO扩展的,内部整合了Thunderbolt 4和PCI-E 5.0控制器,还有视频输出的一部分也在IO模块里面,为IO扩展提供了非常好的灵活性。

神经网络处理单元NPU
MeteorLake_07.jpg

其实现在处理器里面的CPU和GPU都能实现AI运算,然而AI任务也分很多种,而Meteor Lake新引入的NPU则是为了更好的分担不同的AI任务,让不同的处理器单元在多种AI任务中实现性能核功耗的平衡:

GPU具有性能并行性和高吞吐量,非常适合在媒体、3D应用程序和渲染管道中引入AI功能。
NPU是一种专用的低功耗AI引擎,用于持续AI运行和AI卸载。
CPU具有快速响应能力,非常适合轻量级、单推理、低延迟的AI任务。

MeteorLake_09.jpg

CPU、GPU、NPU都是很合适的AI引擎,有各自不同的特征,NPU是个专属的AI低功耗的引擎,适合那些持续性的AI任务,比如进行电话时开启的AI摄像头效果就相当适合NPU。

MeteorLake_10.jpg

NPU由一个多引擎架构组成,该架构配备两个神经计算引擎,可以共同处理单一工作负载或各自处理不同的工作负载。在神经计算引擎中,有两个主要的计算组件:

推理管道:这是高能效计算的核心驱动因素,通过最大限度地减少数据移动并利用固定功能运作来处理常见的大计算量任务,可以在神经网络执行中实现高效节能。绝大多数计算发生在推理管道上,这个固定功能管道硬件支持标准的神经网络运作。该管道由一个乘积累加运算(MAC)阵列、一个激活功能块和一个数据转换块组成。
SHAVE DSP:这是一款专为AI设计的高度优化的VLIW DSP(超长指令字数字信号处理器)。流式混合架构向量引擎(SHAVE)可以与推理管道和直接内存访问(DMA)引擎一起进行管道化,实现在NPU上并行进行的真正异构计算,从而最大限度地提高性能。
DMA引擎:该引擎能够优化编排数据移动,实现最高的能效和性能。

NPU的驱动是符合微软新出的MCDM驱动框架的,所以能够在任务管理器里面就能够看到NPU,它就像CPU、GPU一样能够在任务管理器显示它的工作负载,这点和友商是不一样的。

MeteorLake_08.jpg

Meteor Lake的GPU、NPU、CPU都可以承载AI算力,而且可以相互协同工作,以Stable Diffusion负载为例,如果把Unet、VAE都跑在CPU上的时候,在中间Unet上跑20步,花了43秒,功耗是40W。如果全部跑在GPU上,耗时 14.5秒,功耗是37W。如果以把正负Unet中间的部分跑在NPU上,其他的用CPU来跑,时间缩短到20.7秒,功耗降至10W。如果把正向提示词的Unet跑在GPU上面,负向提示词的Unet跑在NPU上,用时缩短到11.3秒,因为有GPU的参与,所以功耗为30W。

可见在NPU的介入下,AI负载的功耗大幅下降,整体性能也要优于纯CPU或纯GPU负载,整体能耗比大幅提升。

SOC模块

MeteorLake_11.jpg
Meteor Lake为了达成高性能计算和低功耗做了重大的架构更改,上图是Alder Lake和Raptor Lake的框架图,基本上所有东西都挂在环形总线上,CPU核心、GPU或者媒体引擎要访问内存的时候都要穿过环形总线,对于内存访问来说是一个非常高效的方案。

但在节能方面就不怎么好了,环形总线上的任何区块去访问内存的时候,会把一些在该应用场景下不需要的计算单元激活,就会产生较高功耗,比如在流媒体播放时,GPU是不需要被打开的,但是由于这样的一个结构,使得媒体引起要对内存访问的时候,必须要把Ring整个打开。

MeteorLake_12.jpg

在Meteor Lake上为了解决这一问题,Intel把媒体引擎从GPU中剥离,现在GPU在独立的图形模块上,媒体引擎整合在SOC模块里面,Ring总线现在只用在计算模块中,SOC模块有自己的总线,这样他们之中其中一个要访问内存时,都不需要把别的其他模块供电激活了。

MeteorLake_13.jpg

比如在播放流媒体视频时,只需要激活内存控制器、媒体引擎以及显示模块,理论上无需激活GPU与计算单元,以此实现节能的目的。

MeteorLake_14.jpg

SOC模块里面还有两个LP E-Core,它们的工作频率非常低,但能效比很高,可以承担一些对CPU需求较低的负载,比如流媒体播放,这样就不需要激活计算模块了。

MeteorLake_15.jpg

电源管理也重新进行设计,不同模块里面都有分立的电源管理控制器在内部,在SOC上面有一个主要的P单元,它对整个SOC进行电源管理,通过跟不同模块上的分电源管理器进行沟通,这个架构为Meteor Lake提供了很多新的电源管理功能,为将来的芯片设计上的电源管理奠定了非常好的基础。

MeteorLake_16.jpg

上图是Meteor Lake架构SOC模块的方块图,可以看到里面有两个总线,上面的是的Scalable fabric,也称为NOC,它的带宽高达128GB/s,响应速度也很快,够让挂在上面的所有的设备去快速、低功耗的访问整个内存。

可以看到外部的计算模块和图形模块也挂在NOC上面,在SOC内部,包括LP E-Core,内存控制器、多媒体引擎、显示模块、NPU、IPU都挂在NOC总线上。

下面那个总线是IO fabric,外部的IO模块接在这总线上,SOC内部的PCI-E、SATA、USB、Wi-Fi、以太网、音频、传感器以及两个负责安全的区块也连接在这总线上,IO fabric与NOC总线之间由IOC模块进行交互,这两条总线连接了整个SOC模块,甚至说它们连接了Meteor Lake所有的关键部件。

此外我们可以看到IO模块和SOC模块都是有PCI-E控制器的,区别在于IO模块是可以提供PCI-E 5.0的,而SOC模块只提供PCI-E 4.0,具体line数量目前还没公开。

MeteorLake_17.jpg

利用先行的Foveros封装技术,模块间通信带宽基本就是内存级的带宽,速度相当之快,延迟也很低,是一个非常低功耗、高性能的一个互连结构。

MeteorLake_18.jpg

由于SOC模块引入了两个LP E-Core,现在一个完整的Meteor Lake是由6个P-Core,8个E-Core和2个LP E-Core所构成,上图是三种核心的能耗表现,横坐标是功耗,纵坐标是性能,当功耗低于一定程度的时候P-Core的性能表现就不如E-Core,同理在某个功耗点上LP E-Core的性能表现会优于E-Core,所以硬件线程调度器需要更新。

MeteorLake_19.jpg

在Meteor Lake的硬件线程调度器增强了对OS的反馈,在其他IP占用功耗的时候,核心的功耗会被动态分配,把这个条件也考虑在内,更加精准的报告我们整个核心和每个Core的能力。Meteor Lake能够更准确的去做内部能耗比的评估和判断,提供更加精确的表格给到OS。

在系统层面,结合各个系统的操作模式、软件的操作模式,包括对应的平台的硬件特征等等,全部纳入到控制逻辑当中,对核心做更优的控制。由于需要系统的配合,所以Meteor Lake建议搭配最新的Windows系统使用,也就是Windows 11 23H2。

图形模块与媒体单元

MeteorLake_20.jpg
Meteor Lake的GPU被移动到独立的显示模块上,用的是Xe-LPG架构,它是在现有Xe-LP核显架构上发展而来的,并引入了Arc A系列独显的一些技术。

MeteorLake_21.jpg

除了显示模块的GPU外,Meteor Lake的多媒体引擎与显示引擎都移到了SOC模块里面,IO模块上也有显示的物理层负责视频信号的输出。

MeteorLake_22.jpg

与上一代的核显相比,Meteor Lake的GPU拥有更高的主频,电压也更低,Xe核心从6个增加到8个,共128个矢量引擎,增长了33%,几何图形渲染管线数量翻倍,有更高的像素与采样能力,并且加入了8个光追单元,现在Intel的核显也支持光线追踪了。

MeteorLake_23.jpg
各种改进让核显性能较上代番了一倍

MeteorLake_24.jpg

多媒体引擎也有升级,现在最高支持8K 60Hz 10bit的HDR视频解码以及8K 30Hz 10bit的HDR视频编码,支持包括VP9、AVC、HEVC、AV1以及其他的传统格式。

MeteorLake_25.jpg

显示方面,Meteor Lake支持HDMI 2.1、DP 2.1以及完整的eDP 1.4的输出规范,分辨率最高支持一个8K60 HDR,或者4个4K60 HDR,或者是更高刷新率的1080p或者1440p 360Hz。

MeteorLake_06.jpg

总而言之Meteor Lake的改进非常多,新增的LP E-Core是Intel高性能混合架构的首个重大进展,模块化设计代表着Intel 40年来重大的架构转变,NPU的引入代表Intel会将AI广泛引入PC,让PC进入AI时代,庞大的x86生态系统将提供广泛的软件模型和工具,全新的处理器通过践行XPU战略,为高能效AI PC做出了进一步创新。

https://www.expreview.com/90153.html
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2024-12-30 02:03 , Processed in 0.012021 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表