找回密码
 加入我们
搜索
      
查看: 22858|回复: 71

[CPU] [转载] 个人对于英特尔13代14代不稳定问题的信息归纳和想法

[复制链接]
发表于 2024-8-4 12:24 | 显示全部楼层 |阅读模式
本帖最后由 PPXG 于 2024-8-30 10:35 编辑

2024年8月30日更新:
原贴疑似被冲水消失,作者补档链接:https://nga.178.com/read.php?tid=41477386

======================= 分隔线 =======================



一些必要的宇宙安全声明:
Ⅰ. 转载已获得作者本人同意(“我没CHH帐号随便转”),原文链接:https://bbs.nga.cn/read.php?tid=41113127(帖子已无)
Ⅱ. 考虑到两个论坛不同,帖子内可能存在少许修改契合CHH阅读体验


=======================分隔线 以下是正文=======================


其实这个帖子我之前就打算写的,但见到GN说正打算出个新视频,我就想等等看有没有什么技术和原理方面的新信息。
不过刚看了新视频好像几乎没有,新视频主要是喷英特尔公关的脑残回应的。
那我还是先有啥说啥吧,以后有新信息了再更新补充。

不稳定的原因有多种,且原因之间可能相互耦合。但他们其实是相对独立的,应当区分开来讨论。
网上很多时候的讨论把这些原因混淆在一起讨论,会让问题的分析变得困难,或者让原有的信息在传播的过程中受到歪曲。
所以下面我打算先区别开并具体分析几种原因。把几种相对独立的概念理清楚以后,再讨论它们耦合在一起时形成的问题。

目前我认为大体上可以把不稳定的原因分为4种,之前我和在ASUS QA Team的老外 [@Falkentyne] (个人主页:https://bbs.nga.cn/nuke.php?func=ucp&uid=65747770,后面不再添加)聊的时候已总结过:
9aQ2u-fkf4KtT3cSpz-hm.png
1. 主板旧BIOS ACLL过小,电压过低导致的不稳定
2. 电压过高令CPU缩肛,CPU缩肛导致的不稳定
3. 生产批次缺陷/氧化问题导致的不稳定
4. 没有遵守内存POR规范,内存频率运行过高导致的不稳定


1. 主板旧BIOS ACLL过小、电压过低导致的不稳定

想了解为何ACLL过小会导致电压过低,请看我的ACLL机制分析贴:《LGA1700(英特尔12代13代14代)核心供电机制和ACLL机制解析》(链接:https://bbs.nga.cn/read.php?tid=38739235
想了解主板旧BIOS具体使用了多小的ACLL,请看我的ACLL规范对比贴:《为何13代14代CPU“默认”跑不稳,13代14代CPU 英特尔规范与主板厂“默认”的对比》(链接:https://bbs.nga.cn/read.php?tid=39549723

主板使用的ACLL小于英特尔规范,可简单理解为主板违反英特尔规范私自降压。
该现象基本仅出现在消费级桌面主板和少部分笔记本平台上,不出现在服务器主板和大部分笔记本平台上。
这个现象远不止出现在13代和14代,最早在网上出现可以追溯到Z370+8700K时期,微星工程师林大 [@ToppcLin] (个人主页:https://bbs.nga.cn/nuke.php?func=ucp&uid=60622803)在2017年发布的视频:
《板廠不能說的密秘系列之 隱藏起來的CPU節能》
https://www.bilibili.com/video/BV1xt411m7Nt
https://www.youtube.com/watch?v=OAr7JYo4l30
该视频中林大描述了为何Z370 godlike在媒体的主板横评中CPU烤机功耗最高的原因(默认使用了英特尔规范的ACLL),并暗示其他主板厂已经使用了比微星或者说英特尔规范更小的ACLL以获取温度功耗优势。
该视频还介绍了BIOS选项中的CPU lite load(其实就是ACLL+DCLL的组合预设),演示了手动降低CPU lite load(降低ACLL)对降低CPU功耗的影响。

为了让板厂遵守规范以避免这种原因所导致的不稳定,Intel先是在24年年初初拟了一个叫“Intel baseline”的概念,后面正式改为“Intel Default Settings”简称为IDS。IDS在大概24年5月随板厂的BIOS更新推送给用户。
IDS对板厂设置所作的要求如图。
9aQ2u-7l1bZhT3cSqo-bi.jpg
有没有发现这很像我在IDS规范出来几个月之前就已经发了的帖子 https://bbs.nga.cn/read.php?tid=39549723 中所说到的设置?

对于不懂供电机制的人和几乎所有报道此新闻的媒体来说,他们的注意力重点在于图中的绿框部分,也就是Intel对功耗墙和电流墙所做的限制。
但对懂供电机制的人来说,他们的注意力重点在于图中的红框部分,也就是Intel对于ACLL=DCLL=VRMLL所做的硬性要求,这个部分造成的影响才是最大的。
所有使用了IDS的新BIOS的电压上升如此之多,直接原因就是IDS所要求的ACLL=DCLL=VRML。
许多主板使用了规范中最保守也是电压最高的设置:ACLL=DCLL=VRMLL=1.1mOhm
也有少部分主板使用了依然符合规范,但电压稍低的设置:ACLL=DCLL=VRMLL<1.1mOhm

IDS规范完全排除了主板旧BIOS ACLL过小、电压过低导致不稳定的可能,但又加剧了另一个问题的严重性。。。这个我留到后面再展开讲。


2. 电压过高令CPU缩肛,CPU缩肛导致的不稳定

先理清楚缩肛的具体定义,缩肛指的是经过一段时间的使用,芯片运行在某个频率所需的最低电压变高了。
要完整描述一个缩肛现象,你需要在A时间点做某个频率在相同温度、相同平台下的最低电压测试。低于这个电压无法运行稳定,高于等于这个电压可运行稳定,那么这个电压就是稳定性临界电压。A时间点的最低电压记为Vmin_A。
使用一段时间后的B时间点,做上述相同的测试,B时间点的最低电压记为Vmin_B
如果Vmin_B>Vmin_A,那么可以认为使用的这段时间里发生了缩肛。

所以不要说什么跑分变低了是不是缩肛,频率变低了是不是缩肛,帧数变低了是不是缩肛,温度变高了是不是缩肛,电压变高了是不是缩肛。
这些描述都是不适用的。

如果做了上面所说的测试,但用户没把温度变量和平台变量控制好,那也是不适用的。
温度越高,同电压能跑的频率越低,同频率所需的最低电压越高。
冬天跑的稳的参数,夏天跑不稳、要降低0.1G是完全正常的。
等到了冬天,用户又会发现CPU“扩肛”回去了。

高电压会导致缩肛,这个现象不止存在于13代和14代上,存在于任何CPU乃至任何其他半导体芯片中,如GPU核心甚至内存颗粒。
所以当我讨论高电压导致缩肛,我说的不只是针对13代和14代,对于其他CPU和其他芯片也是同样适用的。
我大概是从4790K即10年前开始玩超频的,从那时候起我心理就已经有条规则,即日用超频不要超过1.40V、最好1.35V以下,短时间跑分不要超过1.45V,开机进系统点个亮截个图不要超过1.50V。违反这条规则的电压行为,都有可能导致预期之外的缩肛速度。
我认为几年内0.01-0.02V的最低电压增加都是正常的,是“预期之内”的缩肛,毕竟主板供电会老化,CPU上的电容啥的也会老化,供电瞬态响应性能会下降,即使不看芯片本身,CPU的运行稳定性必然是逐年下降的。

在2018年,OCN用户audiotest献祭了若干颗7700K,做了CPU的缩肛实验。
链接:https://www.overclock.net/thread ... 26097#post-27026097
他的实验是Windows待机只给高电压,因此是高电压、小电流、低温度的工况,那么所有缩肛都是由电压造成的,而与电流、温度无关。
实验得到了CPU的缩肛速度随电压增加而指数型增长的结论。
9aQ2u-8uccKnT3cSma-de.png
运行在1.55V纯空载,大概每36小时就会损失5mV的最低电压。

[@Falkentyne] 以他的一颗13900K QS为代价做了类似的实验,他把13900K BIOS设置1.51V,禁用Cstates掉压后1.46V空载待机放了一个星期,即7x24小时。
过了168小时后,CPU跑5.7G所需要的最低电压增加了40mV以上,增加电压之后甚至还无法跑稳定,相当于相同电压能跑稳的频率降低了0.1G以上。

注意这是纯待机的小电流、低温度下的结果。只要运行了负载,电流更大、温度更高时,相同电压缩肛的速度只会更快。
用RPG游戏来比喻,电压是攻击力,温度是芯片的防御力,电流是攻击速度/攻击频率。
电压越高,攻击力越高;
温度越低,防御力越高;
电流越大,攻击速度越快。

只要攻击力够高(电压够高),即使芯片防御力也挺高(温度低),攻击频率很低(电流小),那么依然能破防,久而久之就会积累出显著的伤害。
如果芯片防御力高到极致(极限超频如液氮把芯片温度降低到零下上百摄氏度),这时候就可以抵抗很高的攻击力(很高的电压)也不破防。
如果芯片防御力低(重负载温度高),攻击速度又很快(重负载电流大),那么即使攻击力不算高(电压不高),也可能导致累积出显著的伤害。

[@Falkentyne] 基于他手上几颗U的缩肛情况,认为英特尔10nm对高电压的缩肛抗性显著比英特尔旧工艺更差,他的12900K也缩肛的十分严重。
他的建议英特尔10nm空载和轻载不要超过Die Sense 1.40V,重负载不要超过Die Sense 1.15-1.20V。
帖子回复链接:https://bbs.nga.cn/read.php?tid=41021067&pid=773159172

好了,以上说了这么多,就是想说从对所有芯片都适用的通用超频和缩肛经验来看,1.4-1.5V已经是挺危险的,足以把缩肛速度加快到以天记数。
更麻烦的是,英特尔10nm对高电压的缩肛抗性还比老工艺更差了。
如果我是英特尔,我肯定会把这代的默认电压调低一些对吧?

那来看看实际上的英特尔都干了些啥?

从10代开始把电压上限从9900K时代的1.52V提高到1.72V,而使用这个1.72V不是因为他们验证过觉得这个电压是安全的/不会导致快速缩肛的,而仅仅是因为VRM的offset mode用的offset量刚好是200mV,那么就刚好是1.52V+0.20V=1.72V
帖子回复链接:https://bbs.nga.cn/read.php?pid=772276447&opt=128
把电压墙拉高这么多就算了,貌似很多板厂还没有照做,也就是说没有设置1.72V的电压墙。

早在2022年10月,我就被13900K在B660的默认电压之高吓到了,为此我还亏钱把第一颗13900K卖了,宁愿用回我的12700非K超外频5.4G。
参考帖子:《摸了个13900k惊天神雷,比12代体质还差,慎买》(https://bbs.nga.cn/read.php?tid=33948571,不过似乎打不开了)

在2022年11月,我摸索出了13900K搭配B660无法禁用CEP的条件下,把电压控制在稍微可接受范围内的设置。
其中的重点其实就是IA VR Voltage Limit电压墙设置
参考帖子:《华硕B660+13代缓解过高电压和功耗的保护性设置》(https://bbs.nga.cn/read.php?tid=34117428

9aQ2u-fqjsK19T3cS197-b9.png
在那时候的回复中,我已经预测到了13900K在这种默认电压下使用迟早会缩肛了。
只是没想到14代的默认电压甚至更高,缩肛速度自然更快。

今年5月我和 [@Falkentyne] 解释ACLL机制以及1.72V电压墙的生效场景时想了两个例子,放在这里也是十分合适的:
(注:想要读明白例子在说啥,请先阅读 https://bbs.nga.cn/read.php?tid=38739235 ,可能需要花数个小时来理解)

9aQ2u-nrKkT3cSr4-dp.png
例子1:
假设14900K 在57x的原始VID为1380mV,使用IDS的ACLL=1.1。
假设在运行多核优化很好的游戏比如赛博朋克2077时,所有核心都没有进C6状态,预测电流为350A,电流墙设置Iccmax>350A故没有触发电流墙降频。
那么ACLL升压后的VID请求值= 1380 + 1.1 * 350 = 1765 mV,已经超过了1720mV的Intel规范电压墙。
在每个frametime周期的轻负载阶段,大部分核心处于既没有进C6状态,又几乎没有什么负载的状态,因此实际电流很小,这里假设实际电流是100A,
那么实际瞬时电压= 1765 - 1.1 * 100 = 1655 mV。

这个例子假设了板厂没有设置1720mV电压墙,同时Iccmax设置较大时玩多核游戏的场景。显然电压是十分危险的。
即使存在1720mV电压墙把倍频砍下去到56x或者56x,实际电压依然接近1.60V。

这个例子表示了运行多核游戏时瞬时高压的出现原因和理论可能性。

9aQ2u-dmzvKiT3cSq4-aa.png
例子2:
是否跑出来TBM3.0单双核睿频,仅取决于P核的活跃核心数量(不处于C6状态的P核数量),而不受E核的活跃核心数量的影响。
回想13代首发,英特尔为了吹他那个大小核的前后台的时候,有一个演示场景是后台全核渲染(blender之类的)扔给16个E核,然后P核用来处理前台交互操作之类的轻度负载。
这个调度策略也是写在Windows11的Intel默认provisioning PPM设置里的。
9aQ2u-ec8fK1tT3cS17m-16d.png
那么理论上就有可能出现2个P核活跃处理前台、16个E核活跃处理后台的场景,而这个2P+16E活跃的场景是允许CPU把TBM3.0睿频跑出来的。
假设14900K 在TBM3.0睿频60x的原始VID为1500mV,使用IDS的ACLL=1.1。
2P+16E活跃,原始VID还这么高,预测电流估计得250A。
那么ACLL升压后的VID请求值= 1500 + 1.1 * 250 = 1750 mV
实际电流也不会小,估计得150A。
那么实际瞬时电压= 1750 - 1.1 * 150 = 1585 mV。

这个例子假设了板厂没有设置1720mV电压墙,同时Iccmax设置并不大,后台在E核上满载,前台用2个P核轻载的场景。显然电压是十分危险的。
这个例子不但连设置较小的Iccmax都无法规避,使用的实际电流还显著比例子1更大,温度更高。

这2个例子可以说是纯理论上的、最极端的worst-case scenario例子,电压看上去吓人到简直像是天方夜谭,感觉用30分钟CPU就没了。
实际情况或许会好一些,但远远没到安全的地步。

在IDS规范出来之前,板厂普遍给了什么4096瓦的PL1和PL2功耗墙,什么unlimited的Iccmax电流墙,但ACLL基本不会用英特尔的1.1,比如华硕就是用的0.5。
那么抛开ACLL过小、电压过低导致的不稳定不谈,起码旧BIOS默认的升压量和实际电压并不会像上面理论说的那么恐怖。
但对于i9型号来说,玩游戏1.4V以上还是会常见的,也不是一个让人舒服的设置。
跑烤机那也必然是一秒100度撞温度墙降频的,该说是温度墙救了CPU一命么?

而在今年5月份IDS规范出来之后,卡死253瓦的PL1和PL2功耗墙,再加上307A的IccMAX电流墙,CPU一跑重负载,直接就撞墙降频了
比如我在IDS出来之前的3月就用13900K自己设置测试过重负载时的运行状态,降频后基本就是跑在4.9G 1.20V,勉强算是安全的。
《测试完全符合英特尔规范时的13900K的表现,和板厂降压、手动降压对比》(https://bbs.nga.cn/read.php?tid=39559820

那么现在高电压缩肛原因其实很大概率不是出在重负载,而是在轻负载,或者轻重负载切换的瞬间。

Rambling about intel i9 14900Ks degrading in a Minecraft server hosting enviroment
https://www.youtube.com/watch?v=yYfBxmBfq7k
buildzoid获取到那些14900K+supermicro W680主板的不稳定(已经缩肛了的)工作站平台的信息,发现该平台主要用于运行Minecraft服务器。
Minecraft服务器对CPU的负载很轻,基本就是单核负载,所以该平台的14900K大部分时间都是跑在TBM3.0的6.0G睿频。即高电压、小电流、低温度。电压基本就是1.50-1.60V,大部分时候的温度都只有50-60,最高不超过80度。
就是在这样每天24小时跑单核6.0G 1.50-1.60V的工况下,这些工作站的14900K大概撑了个1个月就寄了,跑不稳6.0G开始报错了。

这张图也是从那些工作站截的。
9aQ2u-jfitZtT3cSzs-11f.png

14900K:我没意见。
9aQ2u-75sgZeT3cSxc-oy.jpg

最近我在论坛看到的几个13900K开始不稳的案例,发现也是和TBM3.0单双核睿频强关联。
TBM3.0只允许8颗核心里的特定2颗带星标的核心跑,其他核心都是不允许跑的,所以Windows会逮着这俩星标核心疯狂用,用的时间久了,这俩核心毛都薅秃,就开始跑不稳TBM3.0睿频了。
把TBM3.0睿频手动阉割掉,或者降频/关闭/不使用2颗TBM3.0星标核心,就可以大幅度缓解甚至消除不稳定的现象。

这种情况简单来讲就是轻负载星标核心被高电压硬干单核睿频,然后缩肛。
13900K TBM3.0 5.8G原始VID普遍1400-1450mV,14900K TBM3.0 6.0G原始VID普遍1450-1500mV,14900KS TBM3.0 6.2G原始VID普遍1500-1550mV。
这三个型号基本就是这种轻负载缩肛情况的重灾区了。

网上存在另一种说法认为是Ring不耐高压,所以是Ring被电到缩肛。
由于我目前接触到的案例和解决不稳定现象的方法(降频TBM3.0星标核心,而非降频Ring)都与这种说法不符合,故我个人对这种说法持保留态度。
但无论如何,高电压可能造成CPU某个部分的快速缩肛是这两种说法的共识。

而轻重负载切换瞬间的电压尖峰导致的缩肛,其实根本还是来源于ACLL和预测电流那套东西,就是上面那两个纯理论例子。
https://bbs.nga.cn/read.php?tid=38739235 中的理论供电模型4.2为例,现在14900K全默认电压在真实默认状态跑出来的基本是这样的:
9aQ2u-hzniK19T3cS1j7-uy.png
轻重负载转换瞬间电压1600mV,稳态负载电压1400mV,而且这个电压尖峰不是由VRM瞬态响应能力不足而导致的overshoot,而是(ACLL和预测电流升压后的)VID主动请求的。
这种瞬时的电压,用监测软件看软显电压完全看不到,只能用示波器看。虽然高电压持续时间很短,但还是太高了,日积月累说不定也能对CPU造成可观的损伤。
buildzoid观察到,即使使用了新BIOS+IDS+125微码,示波器依然能抓到接近1.60V的最高电压。
9aQ2u-iwcgZaT1kSg7-ur.png

这个电压的严重程度基本和ACLL和Iccmax设置值直接关联,毕竟ACLL是升压量的系数,而Iccmax至少控制了预测电流的理论最大值。
从这个原理来说,轻重负载切换瞬时电压导致的缩肛风险排序为:
笔记本hx平台(1.7mOhm和215A)>= 工作站平台和24年5月后IDS新BIOS的消费级主板(1.1mOhm和307A)> 24年5月IDS以前BIOS的B芯片组主板(0.7-0.9mOhm)> 24年5月IDS以前BIOS的Z芯片组主板(0.5-0.7mOhm) >> 非灰烬超频的定频定压 > 手动阉割和/或非灰烬的动态超频(我正在使用的)

消费级主板(旧BIOS):我觉得工作站有点极端了
普通超频玩家:我觉得Intel默认全都太极端了

有一个方法可以避免这种瞬间高电压,其实准确的说,是避免上述所讨论到的任何情况下的高电压,就是设置IA VR Voltage Limit电压墙设置。
IA VR Voltage Limit对应的是ACLL升压后,但VRMLL掉压前的VID电压。
假如CPU打算跑某个频率并对VID进行ACLL升压,升压后发现超过了IA VR Voltage Limit,那么他就会降频,降到ACLL升压后的VID值不超过IA VR Voltage Limit为止。

buildzoid最新两个视频在**主板上对这个设置进行了验证,表现非常不错。
《One setting to limit max core voltage on Gigabyte Z790/Z690 motherboards.》
https://www.youtube.com/watch?v=2G-Y0yDSfeA
《Making the 14900K fast even with intel default settings enabled and a 1.4V VID limit.》
https://www.youtube.com/watch?v=P7TBEiygGNg

在使用屏蔽牌默认ACLL=VRMLL=0.9mOhm时,可以保证任何时候示波器级的瞬时电压都不超过IA VR Voltage Limit设置值。
在使用屏蔽牌防掉压"High" ACLL=VRMLL=0.55mOhm时,由于VRMLL变小,会有轻微的电压overshoot,但电压overshoot仅仅超过了IA VR Voltage Limit设置值 0.02-0.03V,对瞬时电压值来说这点量几乎可忽略不计。

屏蔽牌主板的具体BIOS截图可以参考buildzoid视频
9aQ2u-gdsgZ1iT3cS29v-187.png

华硕主板的具体BIOS截图可以参考我22年底13900K+B660帖子里的截图 https://bbs.nga.cn/read.php?tid=34117428
9aQ2u-5zk1ZfT3cSsg-lc.jpg


9aQ2u-g1lrK29T3cS1av-ir.png
而英特尔的回应表明,他们宁愿把这个"elevated operating voltage"问题称为“源于微码算法”“电压请求不正确”,也不打算承认这超频玩家都觉得极端的1720mV电压墙和导致ACLL升压爆炸的1.5倍于实际电流的预测电流以及本身就过于激进的默认睿频/默认原始VID其本身就是错误的。
毕竟假如英特尔承认了,就相当于是说自己对CPU缩肛以及CPU电压的认知连包括我在内的众业余超频玩家都不如,然后不自知的把CPU往死里干。
9aQ2u-cskfKkT3cSq4-4a.png
至于英特尔说给The Verge的回应称65瓦以上的型号受问题影响,其实还是保守了。
这里需要强调说明“问题”到底是什么,很多人误以为“问题”是GN先提的“氧化/生产缺陷问题”,其实是混淆概念了,GN提的“氧化/生产缺陷问题”后面再谈。
这里英特尔的“问题”具体指的是电压异常高,那么这个说法还是保守了,其实不只是65瓦以上的型号,是所有13代14代CPU都受影响,毕竟所有型号都用同一套供电架构,所有型号都有着接近于1.5倍实际电流的预测电流(以及对应的异常大的ACLL升压量)。
印象中n100,就是那个纯4小核CPU的预测电流也是有点问题的,他用的还是ACLL 5.0mOhm,远大于RPL-S的型号,不过因为只有4核的纯小核,频率电压还那么低,所以预测电流再大也大不到哪里去,电压异常偏高的幅度比较小,电压再高也高不到哪里去。

从我个人的经验来判断,他所说的8月中旬提供的微码所作的修改,有较大概率就是单纯把IA VR Voltage Limit设置从1720mV降低到1500-1550mV。
再降的多一些,14900K和14900KS的TBM3.0单双核睿频在默认条件下就100%不可能跑出来了。
IA VR Voltage Limit 1500-1550mV是掉压前的,那么掉压后会对应实际最高实际电压1450-1500mV,不过轻重负载切换瞬间用示波器抓到的Vmax还是能到1500-1550mV的。
这样改了之后,勉勉强强应该让大部分样本撑过3年保修再缩到默认跑不稳?14900KS应该还是撑不住。
如果真想当传**用的,或者像我这样珍惜手上CPU的雕体质的,不希望雕体质退化的,我建议还是使用IA VR Voltage Limit=1400-1450mV以下为佳。

另外这个降低电压,无论是通过英特尔8月中旬微码还是通过我们自己设置IA VR Voltage Limit,是要截断缩肛的过程,而不是逆转已经缩肛完的结果。
用另一种说法说,降低电压可以避免没有缩肛/轻度缩肛的CPU继续加重缩肛、从而延长预期使用寿命,但不可能让已经重度缩肛的CPU起死回生。
所以已经缩肛严重到接近跑不稳IDS设置下默认频率的CPU,该换的还是得换。


3. 生产批次缺陷/氧化问题导致的不稳定

这个问题由GN(Gamers Nexus)首次提出,影响范围仅限于13代(根据GN),了解详情的人非常少,我也是太不了解的。
目前无论是GN还是Intel透露出来的信息也很少,可靠性都存疑。
就连GN自己提之前都先叠了很厚的一波甲,说信源不一定可靠之类的。
至于Intel,有人真的会轻易相信Intel公关的话?

目前这个问题我主要还是以信息归纳为主。我等GN的新视频其实主要就是想看这个部分有没有新的信息。
为了理清概念,我会明确区别“氧化问题”和“高电压导致缩肛问题”。

氧化问题由GN在视频《Intel Needs to Say Something: Oxidation Claims, New Microcode, & Benchmark Challenges》中首次提出
https://www.youtube.com/watch?v=gTeubeCIwRw
后续英特尔回应后,在视频《Intel's Biggest Failure in Years: Confirmed Oxidation & Excessive Voltage》有少量补充
https://www.youtube.com/watch?v=OVdmK1UGzGs

这里感谢群友 [@sharknod](https://bbs.nga.cn/nuke.php?func=ucp&uid=64265172) 对于GN视频的英文听录
9aQ2u-d13gZkT3cS1yr-1qx.png
GN旧视频的信息:
1. GN说信源的声称并没有被验证,不应该盲目相信。
2. 信源认为大概有8百万颗13代处理器可能存在氧化问题。
3. 信源认为8000000颗可能存在氧化问题的13代处理器中的6000000颗为(那幅被广为传播的截图的)i9、i7、i5的11个型号,包括无印、-T后缀、-K后缀、-KF后缀。
推论:8000000颗可能存在氧化问题的13代处理器中的其他2000000颗为i3及没有列出来的其他13代CPU型号。
4. 信源认为实际存在氧化问题的CPU数量是可能存在氧化问题的CPU数量的10%-25%。
6000000颗可能存在氧化问题的i9、i7、i5的11个型号的实际存在氧化问题的数量为600000-2000000。
推论:其他2000000颗可能存在氧化问题的i3及没有列出来的其他13代CPU型号的实际存在氧化问题数量的为200000-500000。
5. 信源未提到14代CPU有被影响,但GN基于L1Techs的报告个人猜测14代CPU有被影响。

英特尔回应和GN新视频的信息:
1. Intel声称氧化问题仅存在于早期13代处理器,并且在2023年被解决。Intel声称来源于氧化问题的13代处理器的不稳定案例非常少。
2. Intel声称14代处理器不受氧化问题影响。
3. Intel声称14代处理器的不稳定(全部)来源于高电压导致缩肛问题。

我个人基于目前有限的、又不太可靠的信息的能得到的不太可靠的想法:(叠甲)
GN旧视频刚引进国内的时候应该是产生了相当程度的信息歪曲,毕竟视频具体说的内容要听录转成英文文本,再转成中文很麻烦,但截图的话贴一张就很简单了。
那张图似乎让一些人误以为“图里列出的几个型号存在氧化问题,不在图里的型号不存在氧化问题”。
但GN(的信源)实际想说的是“图里列出的型号占可能存在氧化问题的样本的四分之三,没在图里的型号占可能存在氧化问题的样本的其他四分之一”。

考虑到Intel的回应和GN信源冲突很大,目前其实不太好下结论,我个人依然倾向于认为被“氧化问题”影响的用户和CPU样本不多,被“高电压导致缩肛问题”影响的用户和CPU样本多。
这两者的区别是,
“氧化问题”由于是CPU工艺缺陷,快速损坏的结局是刻在命运里的,就算你降到低频率、低电压用,他该坏还是会坏,用户怎么调整都是救不了的。
“高电压导致缩肛问题”是可以通过降压大幅度减小缩肛速度的,乃至一直用到保修期结束还能继续用。
并且在某种会导致缩肛的特定工况下,不但13代14代会缩,你换上去什么7700K、9900K、12900K、7950X一样会缩,比如那个W680 Minecraft服务器的24小时不间断1.5-1.6V 6.0G单核负载,换谁来都得死。这是13代、14代无关的。当然,13代和14代的抵抗高电压的能力差确实有他自己的问题。

但是同时我也了解到网上和超频圈子里存在一些定频定压用户,排除了ACLL电压异常高的可能,而且没有使用很过分的电压,比如日常使用小于1.35V且只打游戏,但CPU还是快速损坏的。
那么这种案例确实有可能是“氧化问题”。
目前这个部分我还是等待GN的后续进一步验证,毕竟新得到的信息可能轻易会推翻现有的信息和结论。


4. 没有遵守内存POR规范,内存频率运行过高导致的不稳定

对普通用户来说,任何开启XMP所导致的内存不稳定都可以归类于此。

不过这个问题主要是说L1Techs(wendell)那些W680工作站的。
9aQ2u-1gzgKyT3cS187-8h.png
按他的描述似乎那些W680都在给内存超频。比如给1DPC(应该是指四槽插两条)跑5000,给2DPC(应该是指四槽插四条)跑4200。
根据Intel POR,四槽插两条默频是4400,四槽插四条默频是4000(SR)或3600(DR)。
9aQ2u-ecqcK1tT3cSva-tw.png

消费级主板这种事情其实干得挺多,即把不属于该配置的POR频率套到该配置上。比如华硕四槽DDR5插两条支持JEDEC 5600的内存条时,会让它跑本来仅限给双槽主板用的5600,而非四槽主板的4400,实质可视为超频。(还把SA电压电到了1.2还是1.25V,看来华硕确实知道这就是超频啊)
但消费级主板大部分都对内存走线用料和信号有强化,或者四槽拓扑用了daisy chain而非Intel reference的T type,故大大增强了四槽板跑非POR的能力,即使这么超频跑也无所谓。
况且消费级支持JEDEC 5600以上的内存条子大部分至少是海力士2GB ADie颗粒,这个颗粒本身相较于美光DDR5颗粒和三星DDR5颗粒来说跑高频的能力或者说稳定性就已经极强了。
只是批量采购的W680主板有可能设计大体都是参考Intel的reference design按着Intel规范的最低过测标准去给的,这样可以丐到最节省成本,就是刚刚好能过测POR,频率高一点就寄那种,然后用的也是T type,这时候如果他还给这种板子跑非POR(超频)的话稳定性就很捉鸡了。

但后来buildzoid在视频《Rambling about intel i9 14900Ks degrading in a Minecraft server hosting enviroment》( https://www.youtube.com/watch?v=yYfBxmBfq7k )分析那些W680工作站的时候特意说了他们的4x32G配置是跑在POR的3600,还把Intel文档拿出来解释,这个如果是真的话倒是没问题的。
总之buildzoid和wendell肯定有一个人犯乌龙了,不知道在搞什么。


本文涉及到的信息量太大、太杂了,我也就是随便写写的,故可能存在事实性错误、逻辑不顺,请见谅,欢迎指正。

评分

参与人数 1邪恶指数 +10 收起 理由
醉酒棕熊 + 10

查看全部评分

发表于 2024-8-4 12:30 | 显示全部楼层
所以说了这么多,最简单粗暴的定频定压,竟然是最安全的?
发表于 2024-8-4 12:30 来自手机 | 显示全部楼层
太长了,太专业了。就不看了
发表于 2024-8-4 12:32 | 显示全部楼层
你字多你说的对
发表于 2024-8-4 12:38 | 显示全部楼层
分析了一大通,其实还是可以混为一谈的,就是不稳定,不是设计缺陷就是生产工艺缺陷。因为intel以前就没有这一堆事,很稳定。我更倾向于是工艺缺陷导致的,准确来说是10nm工艺问题。14nm++++好几代,非常稳定。
发表于 2024-8-4 12:40 | 显示全部楼层
省流: 13/14代 高电压策略 + 一直存在的硅片工艺, 氧化问题叠加.

氧化工艺在2023开始, 通过筛选(工艺问题还在, 但是吧合格产品筛选出来)的方式, “解决了”.

目前蓝屏原因 可能是工艺+高电压, 两者的某一个, 或者互相产生.
发表于 2024-8-4 12:42 | 显示全部楼层
Mufasa 发表于 2024-8-4 12:30
所以说了这么多,最简单粗暴的定频定压,竟然是最安全的?

一直都是吧,锁电压上限在1.3V左右超频是最安全的
 楼主| 发表于 2024-8-4 12:47 | 显示全部楼层
Mufasa 发表于 2024-8-4 12:30
所以说了这么多,最简单粗暴的定频定压,竟然是最安全的?

对于那些睿频高容易冲到很高电压的的i7 i9来说,恰当的定频定压确实反倒救了他们一命
发表于 2024-8-4 13:14 | 显示全部楼层
所以非K用户配合不能调电压的主板,就只能眼睁睁等死?
发表于 2024-8-4 14:06 来自手机 | 显示全部楼层
定压定频保平安,反正买雕U电压低,雕不雕的默认电压能差0.2V,买过4个13700KF,4个14700kf,最雕的默认电压就1.217V,14700kf跑测试能1.18V下298w全开过p95第二项。大雷的5.4G跑95第一项都出错。
发表于 2024-8-4 14:12 | 显示全部楼层
台积电移到漂亮国以后 这些问题就开始大量出现了 ,大家问下最早第一批的139K用户 出问题的多吗?至少我自己用的两颗目前还是没出问题
发表于 2024-8-4 14:16 | 显示全部楼层
最后那个t走线比菊花链的4条性能要好啊
发表于 2024-8-4 14:16 | 显示全部楼层
其实吧不少人应该在等那8月中旬的微码补丁,也就最后一次相信牙膏,如果再忽悠欺骗那真完了,反正也没多少天了。
发表于 2024-8-4 15:18 | 显示全部楼层
还是那句话,烧鸡保命。
发表于 2024-8-4 15:19 | 显示全部楼层
如果8月15日的补丁不及预期呢?或者是为了安全边际而大幅降低性能呢?
我猜amd把旗舰级zen5推迟到8月15就有和“补丁后的i9”同台竞技的目的。
发表于 2024-8-4 15:31 | 显示全部楼层
还是nga专业啊。
发表于 2024-8-4 15:33 | 显示全部楼层
lanyer 发表于 2024-8-4 15:19
如果8月15日的补丁不及预期呢?或者是为了安全边际而大幅降低性能呢?
我猜amd把旗舰级zen5推迟到8月15就有 ...

那岂不是狠狠的羞辱
发表于 2024-8-4 15:36 | 显示全部楼层
PPXG 发表于 2024-8-4 12:47
对于那些睿频高容易冲到很高电压的的i7 i9来说,恰当的定频定压确实反倒救了他们一命 ...

看来我算是歪打正着了哈哈,首发139k一直定频定压哈哈哈
 楼主| 发表于 2024-8-4 15:51 | 显示全部楼层
gbawrc 发表于 2024-8-4 13:14
所以非K用户配合不能调电压的主板,就只能眼睁睁等死?

适当调整loadline calibration等级,尽可能在触发CEP之前降低ACLL和VRMLL,还不行那只能依靠电压墙限制或者手动限制倍频了后果就是性能受限
发表于 2024-8-4 16:27 | 显示全部楼层
gbawrc 发表于 2024-8-4 13:14
所以非K用户配合不能调电压的主板,就只能眼睁睁等死?

不能调电压的主板,在厂家生产时就保守点,就完事了。
发表于 2024-8-4 16:41 来自手机 | 显示全部楼层
cuixiang 发表于 2024-8-4 16:27
不能调电压的主板,在厂家生产时就保守点,就完事了。

同一块主板,非K默认电压比K高,这肯定不是主板厂商的问题
发表于 2024-8-4 16:43 | 显示全部楼层
能不能给个简单的结论,太长看不下去
发表于 2024-8-4 16:50 | 显示全部楼层
lacsiess 发表于 2024-8-4 12:42
一直都是吧,锁电压上限在1.3V左右超频是最安全的

手动电压很多14900k跑不出默认的全核5.7g,而且不锁功耗一样缩,锁了功耗r23这种多核性能损失又很大
发表于 2024-8-4 16:52 | 显示全部楼层
所以我到手就摸低压运行体质,然后设置成待机默认电压约0.7V,最高电压1.33V左右反而是比较安全的用法了?
发表于 2024-8-4 16:55 | 显示全部楼层
好帖,我想说不知道手上这颗有没有问题才是最恶心的...
用的早期13900K和早期BIOS,但不管打游戏还是干活好像也没什么明显的不稳定症状 ||
发表于 2024-8-4 16:56 | 显示全部楼层
长求总省流版:
13、14代intel CPU 最重要的不稳定原因如下:
1. 主板旧BIOS ACLL过小,电压过低导致的不稳定
2. 电压过高令CPU缩肛,CPU缩肛导致的不稳定

解决方案:
1、定频定压
2、学习猫头大佬和momoka大佬动态超频,调整防掉压和AC LL,做好降压offset,设定电压墙小于等于1.4V(最重要),设定电流墙功耗墙温度墙。
发表于 2024-8-4 19:20 | 显示全部楼层
贴文 重点大概是
Intel Default Settings 最规范、更有保障

板厂其实一早就偷偷减压超频出问题

过高电压确实会导致缩肛

-----不是印证我一早就说BIOS设置问题,降压超频危害更大

发表于 2024-8-4 19:59 | 显示全部楼层
本帖最后由 kmdkai 于 2024-8-4 20:02 编辑

我们近期也探索到最终的关于不稳定问题的原因了,这两天也在撰写问题挖掘与分析内容。
等我们的内容发出来后,可以看下我们是如何大海捞针般的歪打正着找到原因和解决问题的。
届时我们也会放出不稳定问题的自查方法以及规避方案。
发表于 2024-8-4 20:12 | 显示全部楼层
10nm U 满载电压超过1.25V我就看起难受。功耗强迫症患者。
发表于 2024-8-4 20:13 | 显示全部楼层
所以哪位大佬能告诉我微星的电压墙是哪个设置,找半天没找到……
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2024-11-21 14:41 , Processed in 0.019846 second(s), 9 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表