本帖最后由 kmdkai 于 2024-8-29 10:33 编辑
2024年8月20,开玩黑神话悟空之前更新:0X129微代码我们已经在多台14900K 14900KS工作站全面测试了。目前总结两种解决方案,如果未来无特殊情况,本文不再更新。文章在更新时不保留先前旧内容。
献祭了一颗全新盒装14900KS作为血的代价重要提醒:强烈不推荐主板厂商默认的设定,尤其要留意核心电压!我们在华硕Z790主板更新0X129微代码后,在未使用intel baseline或intel default setting情况下,14900KS核心电压高达1600毫伏,生产力测试不到数分钟便出现不可逆损坏缩缸寄了,已经走RMA。切记总是先套用intel baseline或intel default setting设定,或者手动限制核心电压墙VMAX为1500毫伏以内,避免此类悲剧重演。
2024年8月4日这天我们激动万分,因为从合作伙伴西电机房那边传来测试报告喜讯,多台14900K和14900KS工作站在新的调整设置后,连续24小时生产力测试顺利完成。意味着这场前后历时近一年的,对intel的13、14代处理器运行不稳定现象的探索调查与问题分析挖掘之路总算可以画上完美的句号并落下帷幕了。
当然过去一年中我们也走了一些弯路,首先是用于测试的方法存在些许潜在问题,直到7月底我们更换一套新测试方法。另外由于需要观察了解合作伙伴西电机房那边生产力环境下的长期使用反馈,也耽误了大量时间。否则本文至少能在三个月前就能发表,但时至今日发出也不算晚。
为避免骗取关注和广告嫌疑,我们先将解决方案,以及如何自查处理器是否存在不稳定的方法,以及对策放在前面。鉴于本人文笔一般,主要故事以时间线形式讲述。有兴趣的朋友茶余饭后可以了解一下我们这前后一年中所付出的种种努力。欢迎共同探讨。
你可自由转载本文,转载时请注明出处:https://www.s-ss.cc/2521.html
问题原因分析与总结:
第12代酷睿处理器是intel代表性的成功之作,但面对AMD锐龙系列产品强力攻势,intel短时间难以拿出抗衡之策,于是重回当年打磨14纳米挤牙膏式的套路,压榨10纳米工艺的极限。
现如今往回看,不难看出第13代、14代处理器在发布之初,intel很可能未严格进行全面质量测试与参数标定,导致最终用户使用中可靠性与稳定性快速下降。终究自食其果。
如今从我们最终结果角度分析,一切问题关键都源于电压层面,尤其是处理器核心电压过高,IA VR VMAX过高(也就是我们此前所称呼的‘上限’问题)。比如13900K、14900K、14900KS高端型号,为了确保高睿频与频率上限,处理器在实际运行中瞬时核心电压甚至接近1.6V左右或以上,远超过10纳米工艺的极限。即便参考过去的第10代、11代酷睿,以及AMD锐龙3000 5000处理器的经验,第13、14代高端型号的电压还是过高。这就导致长期使用可靠性逐渐下降,包括在高负载或复杂负载场景下可能由于电压瞬间突变导致不稳定。
从电压方面又衍生出第二个问题:intel在确保高主频高性能同时(上限),又想实现低待机功耗和节能表现(下限)。因此在处理器节能(下限)与处理器负载(上限)动态交叉变换过程中,在复杂的瞬态电压请求变化中可能难以做到两全其美。尤其是面对轻度复杂指令集负载以及生产力场景下,难以保障稳定性。在2024年初,全网几乎将不稳定问题目光的焦点放在ACLL DCLL ICCMAX PL1 PL2问题上,通过加以限制确实能改善部分情况,但并不能解决问题的根本。后来我们分析和实践发现,若直接关闭C-STATE处理器节能功能后,稳定性表现会大幅提高,分析原因是处理器不需要再兼顾节能因此不需要频繁的电压瞬态变化请求,因此直接提高了稳定性。因此关闭C-STATE的做法,是我们在2024年上半年到2024年中旬主要采取的主流解决方案,但现如今采取VMAX限制后则不再需要这样做。
如何确定你的13代、14代处理器存在不稳定问题?
- 非0X129微代码或更新的BIOS。没有超频行为。
- 在日常使用中至少出现过一次或多次的宕机、蓝屏、程序崩溃问题。
- 宕机现象包括不限于屏幕冻结,直接黑屏,直接重启,直接断电情况。
- 至少出现过一次或多次蓝屏,且蓝屏代码与处理器或内存有关。
- 程序崩溃现象包括不限于软件闪退、软件异常报错、计算类软件无法正常得出计算结果或计算异常报错。
- 只要至少出现过一次以上的上述状况,排除是主板、内存、硬盘、系统与软件问题后,即可判断你的处理器存在不稳定问题。
如何进行BIOS参数设定以规避intel第13代、14代处理器的不稳定问题?
第一种解决方案:更新0X129微代码或之后的BIOS,并采用intel default setting。
2024年8月上旬,我们已经在生产力环境全方位测试了0X129微代码,主板为华硕B760,华硕Z790,0X129微代码BIOS套用intel baseline或intel default setting设定后(华硕主板中选取了performance档),生产力全面过测,不存在任何稳定性问题。
但是处理器核心电压比较高,我们测试中发现核心最高电压大约能到1500毫伏,部分情况可以达到1540毫伏。但由于生产力场景已通过测试,所以短期内无法确定长期使用是否会对处理器造成不可逆损伤。西电机房那边已经开始对0X129微码BIOS进行生产力场景的长期可靠性测试了,如果后续有新情况会更新本文内容。
方案优点:
几乎懒人化方法,傻瓜化,只需要更新BIOS,一键套用intel baseline或intel default setting设定就可以一劳永逸。
采取B系列芯片组主板情况下尤为省心。
方案缺点:
intel baseline或intel default setting设定为最保守状态,处理器高负载状态下能耗比较差,温度与功耗较高。
仅推荐处理器散热条件好的用户采用,或加以采用方案二适当限制核心电压上限提高能效比。
部分其他品牌主板无一键套用intel baseline或intel default setting设定的选项,因此需要手动按照intel官方设定指导设置。
我们不确定intel默认的1500~1540毫伏电压墙的限制下,长期使用对处理器是否有不可逆损伤。
第二种解决方案:限制VMAX,具体方法如下。
- 并不一定要更新最新的BIOS,甚至不需要采用intel baseline或intel default setting设定档。例如合作伙伴西电机房那边,他们目前华硕主板BIOS统一在164x或165x版本,因为他们十分反感intel baseline或intel default setting设定,用他们的话评论:纯属脱裤子放屁行为。
- 寻找主板BIOS关于处理器电压上限IA VR VMAX(本章节末尾的图片),例如华硕主板内选项为IA VR Voltage Limit,其它品牌主板自行查找相关项,作用是限制处理器核心电压的上限。从我们目前已测试的生产力情况来看,建议追求稳定的用户IA VR VMAX上限设定如下:
- 14700K/KF或13900K/KF,建议1380至1420毫伏。
- 13900KS,14900K/KF,建议1420至1450毫伏。
- 14900KS,建议1440至1480毫伏。
- 以上电压是基于我们2024年8月中旬最新的通过生产力过测试的值。
- 中低端型号例如13700K 14600K 12900K 以及非K或以下规格处理器的用户,如果你也被不稳定问题困扰,请将这些中低端型号的IA VR VMAX设定限制为1400毫伏或更低,可以起到立竿见影效果。
- 将IA VR VMAX限制设定值低一些,稳定性立竿见影的显著提高,并且长期使用基本不会出现不可逆损伤(本文简称为:缩缸)。
- 以上的IA VR VMAX建议值为生产力和高稳定需求场景使用,大家也可自行摸索更高的限制值,但不建议超过1500毫伏以上,继续提高电压不会有明显的性能收益。
- Z系列主板通常不需要更改SVID电压为intel failsafe,我们在华硕Z790平台测试:未设置intel baseline或intel default setting情况下,仅采取IA VR VMAX限制,SVID模式AUTO,ACLL DCLL均为AUTO,连续24小时高强度生产力计算测试没有任何问题。
- CEP可放心关闭,从我们测试经验,开关CEP对稳定性几乎无任何影响。至少我们目前调整过的14900K 14900KS工作站都是关闭CEP且生产力过测的。
- ICCMAX建议设置为300A以内,性能基本不会有太大的折扣。超频玩家可以尝试310A到350A,继续提高ICCMAX不会有明显性能收益。
- PL1长期功耗墙与PL2短期功耗墙,普通用户建议PL1为233W PL2为253W。散热优秀的环境或超频玩家PL1为253W,PL2为288W。如果只想低温且安静,能效比,则PL1为180W PL2为210W。
- 采取上述一系列设定后,不推荐降压操作,性能收益不高。
知识点补充:
VMAX决定核心电压上限,影响单双核最高频率,提高VMAX可以提高单双核性能上限,对于非多核场景有用。但日常感受微乎其微。
ICCMAX决定核心电流上限,影响多核全核频率上限,提高限制可以提高多核全核性能。但需要合理设置。
PL1 PL2决定处理器功耗上限,PL1是长期负载功耗,PL2是短期负载功耗。需要搭配VMAX和ICCMAX总体进行合理设置。
ACLL通俗讲为核心进行压降的比例,intel默认的1.1值为核心提供原始电压,将值设置更小可以一定比例的降低核心电压,设置的越小降低的电压越多。适当设置可以提高能效比,但降低太多会出现不稳定。目前我们在生产力过测的值大约是0.8,更低的值则概率出现不稳定或其他异常情况。只求稳定的用户一般不需要改动ACLL设置,因为部分主板默认情况下就已经降低了ACLL值。
load-line通常不建议调整,保持主板默认的AUTO即可,例如华硕默认为3挡。
方案优点:
可确保处理器长期处于频率与功耗甜点区间,处理器能效比可以显著提升。
更灵活的可调性,Z系列芯片组主板使用XTU也可代劳,玩法多样化。
方案缺点:
只限于有一定的BIOS设定经验的玩家。
只有Z系列芯片组主板才具有更高的可操作性。B系列芯片组不具备高度灵活可调性。
不同品牌主板设定项目不同,因此对主板品牌有所挑剔。
备注:我已查阅微星和技嘉主板官网关于600/700系列主板的BIOS设定说明书,未发现关于处理器核心电压上限设定值。考虑到部分品牌主板BIOS中没有关于处理器核心电压上限相关设定,在这里提供另一个可能有效的解决方法:寻找主板BIOS关于处理器节能设定中的C-STATE设定,将C-STATE控制或C-STATE状态限制选项设置为disable关闭,或者限制状态为C0/C1,则很大程度也能缓解不稳定情况(这个方法是我们2024年早期时候主要采取的做法)。
如何确定你的处理器已经出现了不可逆损伤/损坏(缩缸)?以及后续措施
我们的合作伙伴西电机房那边,就出现过多起处理器不可逆损伤(缩缸)的情况。具体原因多半是因为主板默认的VMAX过高,让处理器在生产力测试中电压冲击导致损伤。出现损伤问题后,即使采取方案一、二中的设置,依然不稳定,只能通过售后RMA更换解决。
- 在应用上一章节的第一种方案,以及第二种方案的保守设定后,在日常使用或生产力场景下仍然出现宕机、闪退、崩溃等不稳定现象。则表明你得处理器已经存在了不可逆损伤(缩缸),则建议应用如下设定。
- 套用intel baseline或intel default setting,再套最保守的IA VR VMAX为1350毫伏,ICCMAX为280A,PL1为200W,PL2为220W的设定,这是最后能做的选择。也可以进一步降低设置值。
- 开启CEP,报着死马当活马医的心态看看。
- BIOS关闭处理器节能C-state,系统属性调整电源模式为高性能或卓越性能,从下限层面为稳定性兜底。
- 上述一系列设定后还不稳定的,请售后质保RMA。
- 如果处理器没有质保,并且宣告报废的话。可以考虑5到7折挂闲鱼并标明为坏处理器,会有专业回收坏处理器的,至少能回血一部分。或者干脆自己做钥匙扣收藏回味吧。
===========分割线===========
阅读正文之前,建议先了解我们此前已经发表的各个阶段总结,以知晓我们过去一年里所有工作的精髓,便于更好理解正文故事中的时间线:
这里特别感谢我们的合作伙伴豫西西电机房(本文简称:西电机房,或:机房),在过去的一年多时间里提供机房多台工作站13900K、14900K、14900KS供我们测试调整与问题分析。如果没有西电机房的支持,我们对问题原因的探索之路也不会如此之快。
时间线,故事是如何开始以及如何发展的:
前言:众所周知最近几个月有多个媒体报道关于intel第13、14代处理器在一些云桌面云游戏的数据中心场景下存在的不稳定现象问题。报道中所提到的情况,与我们合作伙伴西电机房遭遇的情况如出一辙,唯一不同的是,在西电机房那边所遇到的问题更为严重和频繁,因为机房的机器更多是应用于科学计算生产力领域包括不限于matlab、编译、Python、comsol、R、ansys、abaqus、DYNA等。
2023年1月,实际上,西电机房早在2023年1月份就向我们报告关于13900K机器偶发性出现宕机问题,宕机表现为:异常重启、蓝屏、屏幕冻结死机、软件崩溃闪退(本文会将这一系列现象统称为:不稳定)。因为我们是技术上的合作伙伴,他们多次邀请我们协助分析和调查原因,从此故事边拉开了序幕。
西电机房那边一开始部署了大约十几台13900K工作站,有数台机器会偶发不稳定,没有确切的规律可循。当时全网关于intel第13代处理器不稳定报道与反馈很少。起初我们判断可能是驱动或软件层面问题,所以建议重装原版系统、安装最新驱动,在随后使用中保持观察寻找问题出现的规律。并且出问题的机器暂时不投入使用,确定是否只是个例。
2023年5月,他们机房业务来到了一小波高峰期,13900K工作站增加到了大约40台数量。但是出现问题的机器数量也更多了,至少有十几台机器都曾出现过一次或多次不稳定问题。我们分析问题在主板或处理器方面。因为他们搭配的主板是Z690,所以我们建议采购一批B660芯片组主板观察问题是否复现,同时对严重不稳的机器更换处理器尝试。在随后的几个月时间里,该方案有一定效果。尤其是更换为B660芯片组主板后,不稳定现象概率骤减。即使是容易出现不稳定现象的机器,更换处理器也能够多半解决问题。并且我们也建议等待后续几个月BIOS更新看看有无改善。
2023年年底,西电机房那边开始采购部署14900K。这才是麻烦真正的开始,问题发展向高潮。一开始他们部署了十台左右14900K工作站。但不到一个月时间,几乎每一台14900K工作站都出现过至少一次或多次的不稳定现象。我们当时也快疯了,因为如果仅仅按照过去经验,搭配B系列芯片组主板,以及更换故障处理器的方法很显然无法应对如此庞大的问题规模。于是我们建议是短期内不要投入使用14900K机型,保持13900K、13900KS为主,并等待后续BIOS更新看看能否修复问题。因为我们认为可能是BIOS缺陷导致的普遍不稳定现象,于是时间一转到了2024年。
2024年3月,西电机房那边在过去的几个月更新过多个版本BIOS进行测试,向我们反馈问题未得到有效解决。于是我们也坐不住了,也下决心分析下问题原因,使用他们机房的大约十台14900K工作站,进行大海捞针一般进行不稳定问题的探索与研究。
2024年4月5月。我们可忙坏了,因为4月intel公布了baseline设定,华硕主板也更新了baseline设定选项。这两个月里我们每天都在重复测试14900K工作站,寻找问题发生的规律,真的如同大海捞针一般,因为完全没有任何经验参考。但是很快我们就有了发现:不稳定现象的表现与曾经的过度超频导致的不稳定现象如出一辙。于是乎我们采取反向超频思维,还别说,真的很有成效,我们很快就发现了问题规律。具体表现是:部分软件只要一运行就闪退或崩溃,或者长期生产力测试一段时间后就会软件闪退或宕机。并且在多台机器上的问题表现是相同的,总算是有了一点线索和头绪,我们认为问题并不简单,不仅仅是单方面的。
2024年4月和5月,我们的重要发现:处理器处于轻度负载必定大概率不稳定;处理器在快速且复杂的负载波动下大概率不稳定;baseline设定未能有效解决不稳定现象。
2024年4月和5月,我们所做的较为有效的应对不稳定现象的设定与调整:关闭处理器节能,限制P核最高睿频频率,限制ICCMAX、PL1、PL2。通过结合使用,能有效降低不稳定现象出现的几率。但是我们还没办法准确确定到底是哪个因素引发的不稳定问题,所以我们认为问题一定是多方面的。
2024年6月,我们放松下来了,因为我们提供的调整策略,已经可以西电机房那边的机器相对稳定的运行,虽然性能有一定损失,但总比宕机了好。也正是这段时间,全网关于intel第13、14代酷睿处理器不稳定的报道以及内容遍地开花。我们也花了一些时间浏览众多的内容和信息,并与我们自己的测试结论交叉验证,并在必要的时候再进行调整和测试。
2024年6月,我们的重要发现:将13900K、14900K、14900KS的P核核心频率限制到5.3、5.4、5.5Ghz以内后,能提高部分生产力测试的通过概率,并且提高了某些情况下的稳定性。这对我们后来对于最终问题的探索与分析起到了至关重要的作用。
2024年7月底8月初,从众多不稳定问题报道中,结合我们自己长久累积下来的经验与结论分析,最终将问题锁定在电压方面。因为无论是核心频率,还是cache频率,都与电压因素直接挂钩。并且低端SKU到高端SKU,出现不稳定的概率也是从低到高,这其中的关系除了频率,就是电压。而且从逻辑层面分析:intel的第13、14代处理器在提升频率的同时,不断提高电压,很可能高电压超过了10纳米工艺的极限。
于是我们立刻去西电机房那边,对机房内部分14900K和14900KS工作站采取新的设定与新的测试方法。最终在8月初的几天,伴随多台机器顺利通过测试的喜讯,我们也准确的确定了问题最终原因:IA VR VMAX,即电压与电压墙。
2024年8月初,我们发现:通过限制IA VR VMAX为1350毫伏或1400毫伏以内,处理器未发生过任何不稳定现象,即使持续十多小时苛刻的生产力测试,也非常稳定。至此宣告整个系列的故事圆满画上句号。
2024年8月中旬,我们已测试0X129微代码更新,在套用intel baseline或intel default setting后,生产力顺利通过测试。但是0X129微代码的处理器核心电压最高还是会达到1500毫伏,因此我们对如此高的电压长期使用可靠性仍旧存有疑问。
===========分割线===========
2024年8月5日,本文发表时,intel对于第13、14代酷睿处理器运行不稳定的现象仍旧未给予完美的解决方案。虽然在过去的几个月里,intel多次发布微代码尝试修复或解决问题,但似乎并未能起到绝对有效解决不稳定问题的作用。
最新消息是intel将在8月中旬发布关于电压策略调整优化的微代码修复,我们预计会限制处理器电压上限,很可能将限制在1500毫伏左右或以内,具体视SKU规格稳定。我们认为intel的10纳米工艺所能承受的在数年内稳定运行的电压应该是在1400毫伏至1500毫伏以内。提高电压能提升频率,但是会降低稳定性、耐久性与可靠性。降低电压会降低最高频率,但是提高稳定性、耐久性与可靠性。因此8月中旬的微代码具体会对处理器核心电压策略方面做出何种调整,我们也拭目以待。
题外话:我们觉得intel应该做出实际行动,在下一代桌面处理器发布后,为每一位购买13600K及以上,以及14600K及以上型号处理器的一手买家提供免费更换下一代对应级别桌面处理器规格的政策,毕竟每一位13代与14代处理器的一手买家都是这场不稳定风波中的受害者。
最后,感谢这过去一年里,参与本故事中的那些默默无闻付出的朋友们:地球发展联盟www.s-ss.cc,豫西西电机房,kmdkai,ufo1996215,开鑫,华硕技术支持,CHH论坛。
|