找回密码
 加入我们
搜索
      
查看: 71568|回复: 221

[CPU] 8月20更新:完结,两种解决方案针对intel第13 14代处理器不稳定问题,缩缸损坏自查方

 火.. [复制链接]
发表于 2024-8-7 17:23 | 显示全部楼层 |阅读模式
本帖最后由 kmdkai 于 2024-8-29 10:33 编辑

2024年8月20,开玩黑神话悟空之前更新:0X129微代码我们已经在多台14900K 14900KS工作站全面测试了。目前总结两种解决方案,如果未来无特殊情况,本文不再更新。文章在更新时不保留先前旧内容。

献祭了一颗全新盒装14900KS作为血的代价重要提醒:强烈不推荐主板厂商默认的设定,尤其要留意核心电压!我们在华硕Z790主板更新0X129微代码后,在未使用intel baseline或intel default setting情况下,14900KS核心电压高达1600毫伏,生产力测试不到数分钟便出现不可逆损坏缩缸寄了,已经走RMA。切记总是先套用intel baseline或intel default setting设定,或者手动限制核心电压墙VMAX为1500毫伏以内,避免此类悲剧重演。

2024年8月4日这天我们激动万分,因为从合作伙伴西电机房那边传来测试报告喜讯,多台14900K和14900KS工作站在新的调整设置后,连续24小时生产力测试顺利完成。意味着这场前后历时近一年的,对intel的13、14代处理器运行不稳定现象的探索调查与问题分析挖掘之路总算可以画上完美的句号并落下帷幕了。

当然过去一年中我们也走了一些弯路,首先是用于测试的方法存在些许潜在问题,直到7月底我们更换一套新测试方法。另外由于需要观察了解合作伙伴西电机房那边生产力环境下的长期使用反馈,也耽误了大量时间。否则本文至少能在三个月前就能发表,但时至今日发出也不算晚。

为避免骗取关注和广告嫌疑,我们先将解决方案,以及如何自查处理器是否存在不稳定的方法,以及对策放在前面。鉴于本人文笔一般,主要故事以时间线形式讲述。有兴趣的朋友茶余饭后可以了解一下我们这前后一年中所付出的种种努力。欢迎共同探讨。

你可自由转载本文,转载时请注明出处:https://www.s-ss.cc/2521.html

问题原因分析与总结:
第12代酷睿处理器是intel代表性的成功之作,但面对AMD锐龙系列产品强力攻势,intel短时间难以拿出抗衡之策,于是重回当年打磨14纳米挤牙膏式的套路,压榨10纳米工艺的极限。

现如今往回看,不难看出第13代、14代处理器在发布之初,intel很可能未严格进行全面质量测试与参数标定,导致最终用户使用中可靠性与稳定性快速下降。终究自食其果。

如今从我们最终结果角度分析,一切问题关键都源于电压层面,尤其是处理器核心电压过高,IA VR VMAX过高(也就是我们此前所称呼的‘上限’问题)。比如13900K、14900K、14900KS高端型号,为了确保高睿频与频率上限,处理器在实际运行中瞬时核心电压甚至接近1.6V左右或以上,远超过10纳米工艺的极限。即便参考过去的第10代、11代酷睿,以及AMD锐龙3000 5000处理器的经验,第13、14代高端型号的电压还是过高。这就导致长期使用可靠性逐渐下降,包括在高负载或复杂负载场景下可能由于电压瞬间突变导致不稳定。

从电压方面又衍生出第二个问题:intel在确保高主频高性能同时(上限),又想实现低待机功耗和节能表现(下限)。因此在处理器节能(下限)与处理器负载(上限)动态交叉变换过程中,在复杂的瞬态电压请求变化中可能难以做到两全其美。尤其是面对轻度复杂指令集负载以及生产力场景下,难以保障稳定性。在2024年初,全网几乎将不稳定问题目光的焦点放在ACLL DCLL ICCMAX PL1 PL2问题上,通过加以限制确实能改善部分情况,但并不能解决问题的根本。后来我们分析和实践发现,若直接关闭C-STATE处理器节能功能后,稳定性表现会大幅提高,分析原因是处理器不需要再兼顾节能因此不需要频繁的电压瞬态变化请求,因此直接提高了稳定性。因此关闭C-STATE的做法,是我们在2024年上半年到2024年中旬主要采取的主流解决方案,但现如今采取VMAX限制后则不再需要这样做。

如何确定你的13代、14代处理器存在不稳定问题?
  • 非0X129微代码或更新的BIOS。没有超频行为。
  • 在日常使用中至少出现过一次或多次的宕机、蓝屏、程序崩溃问题。
  • 宕机现象包括不限于屏幕冻结,直接黑屏,直接重启,直接断电情况。
  • 至少出现过一次或多次蓝屏,且蓝屏代码与处理器或内存有关。
  • 程序崩溃现象包括不限于软件闪退、软件异常报错、计算类软件无法正常得出计算结果或计算异常报错。
  • 只要至少出现过一次以上的上述状况,排除是主板、内存、硬盘、系统与软件问题后,即可判断你的处理器存在不稳定问题。

如何进行BIOS参数设定以规避intel第13代、14代处理器的不稳定问题?


第一种解决方案:更新0X129微代码或之后的BIOS,并采用intel default setting。
2024年8月上旬,我们已经在生产力环境全方位测试了0X129微代码,主板为华硕B760,华硕Z790,0X129微代码BIOS套用intel baseline或intel default setting设定后(华硕主板中选取了performance档),生产力全面过测,不存在任何稳定性问题。

但是处理器核心电压比较高,我们测试中发现核心最高电压大约能到1500毫伏,部分情况可以达到1540毫伏。但由于生产力场景已通过测试,所以短期内无法确定长期使用是否会对处理器造成不可逆损伤。西电机房那边已经开始对0X129微码BIOS进行生产力场景的长期可靠性测试了,如果后续有新情况会更新本文内容。

方案优点:
几乎懒人化方法,傻瓜化,只需要更新BIOS,一键套用intel baseline或intel default setting设定就可以一劳永逸。
采取B系列芯片组主板情况下尤为省心。

方案缺点:
intel baseline或intel default setting设定为最保守状态,处理器高负载状态下能耗比较差,温度与功耗较高。
仅推荐处理器散热条件好的用户采用,或加以采用方案二适当限制核心电压上限提高能效比。
部分其他品牌主板无一键套用intel baseline或intel default setting设定的选项,因此需要手动按照intel官方设定指导设置。
我们不确定intel默认的1500~1540毫伏电压墙的限制下,长期使用对处理器是否有不可逆损伤。

第二种解决方案:限制VMAX,具体方法如下。
  • 并不一定要更新最新的BIOS,甚至不需要采用intel baseline或intel default setting设定档。例如合作伙伴西电机房那边,他们目前华硕主板BIOS统一在164x或165x版本,因为他们十分反感intel baseline或intel default setting设定,用他们的话评论:纯属脱裤子放屁行为。
  • 寻找主板BIOS关于处理器电压上限IA VR VMAX(本章节末尾的图片),例如华硕主板内选项为IA VR Voltage Limit,其它品牌主板自行查找相关项,作用是限制处理器核心电压的上限。从我们目前已测试的生产力情况来看,建议追求稳定的用户IA VR VMAX上限设定如下:
  • 14700K/KF或13900K/KF,建议1380至1420毫伏。
  • 13900KS,14900K/KF,建议1420至1450毫伏。
  • 14900KS,建议1440至1480毫伏。
  • 以上电压是基于我们2024年8月中旬最新的通过生产力过测试的值。
  • 中低端型号例如13700K 14600K 12900K 以及非K或以下规格处理器的用户,如果你也被不稳定问题困扰,请将这些中低端型号的IA VR VMAX设定限制为1400毫伏或更低,可以起到立竿见影效果。
  • 将IA VR VMAX限制设定值低一些,稳定性立竿见影的显著提高,并且长期使用基本不会出现不可逆损伤(本文简称为:缩缸)。
  • 以上的IA VR VMAX建议值为生产力和高稳定需求场景使用,大家也可自行摸索更高的限制值,但不建议超过1500毫伏以上,继续提高电压不会有明显的性能收益。
  • Z系列主板通常不需要更改SVID电压为intel failsafe,我们在华硕Z790平台测试:未设置intel baseline或intel default setting情况下,仅采取IA VR VMAX限制,SVID模式AUTO,ACLL DCLL均为AUTO,连续24小时高强度生产力计算测试没有任何问题。
  • CEP可放心关闭,从我们测试经验,开关CEP对稳定性几乎无任何影响。至少我们目前调整过的14900K 14900KS工作站都是关闭CEP且生产力过测的。
  • ICCMAX建议设置为300A以内,性能基本不会有太大的折扣。超频玩家可以尝试310A到350A,继续提高ICCMAX不会有明显性能收益。
  • PL1长期功耗墙与PL2短期功耗墙,普通用户建议PL1为233W PL2为253W。散热优秀的环境或超频玩家PL1为253W,PL2为288W。如果只想低温且安静,能效比,则PL1为180W PL2为210W。
  • 采取上述一系列设定后,不推荐降压操作,性能收益不高。

知识点补充:
VMAX决定核心电压上限,影响单双核最高频率,提高VMAX可以提高单双核性能上限,对于非多核场景有用。但日常感受微乎其微。
ICCMAX决定核心电流上限,影响多核全核频率上限,提高限制可以提高多核全核性能。但需要合理设置。
PL1 PL2决定处理器功耗上限,PL1是长期负载功耗,PL2是短期负载功耗。需要搭配VMAX和ICCMAX总体进行合理设置。
ACLL通俗讲为核心进行压降的比例,intel默认的1.1值为核心提供原始电压,将值设置更小可以一定比例的降低核心电压,设置的越小降低的电压越多。适当设置可以提高能效比,但降低太多会出现不稳定。目前我们在生产力过测的值大约是0.8,更低的值则概率出现不稳定或其他异常情况。只求稳定的用户一般不需要改动ACLL设置,因为部分主板默认情况下就已经降低了ACLL值。
load-line通常不建议调整,保持主板默认的AUTO即可,例如华硕默认为3挡。

方案优点:
可确保处理器长期处于频率与功耗甜点区间,处理器能效比可以显著提升。
更灵活的可调性,Z系列芯片组主板使用XTU也可代劳,玩法多样化。

方案缺点:
只限于有一定的BIOS设定经验的玩家。
只有Z系列芯片组主板才具有更高的可操作性。B系列芯片组不具备高度灵活可调性。
不同品牌主板设定项目不同,因此对主板品牌有所挑剔。

asus 1700 mothboard bios ia vr vmax setting.jpg
备注:我已查阅微星和技嘉主板官网关于600/700系列主板的BIOS设定说明书,未发现关于处理器核心电压上限设定值。考虑到部分品牌主板BIOS中没有关于处理器核心电压上限相关设定,在这里提供另一个可能有效的解决方法:寻找主板BIOS关于处理器节能设定中的C-STATE设定,将C-STATE控制或C-STATE状态限制选项设置为disable关闭,或者限制状态为C0/C1,则很大程度也能缓解不稳定情况(这个方法是我们2024年早期时候主要采取的做法)。


如何确定你的处理器已经出现了不可逆损伤/损坏(缩缸)?以及后续措施

我们的合作伙伴西电机房那边,就出现过多起处理器不可逆损伤(缩缸)的情况。具体原因多半是因为主板默认的VMAX过高,让处理器在生产力测试中电压冲击导致损伤。出现损伤问题后,即使采取方案一、二中的设置,依然不稳定,只能通过售后RMA更换解决。

  • 在应用上一章节的第一种方案,以及第二种方案的保守设定后,在日常使用或生产力场景下仍然出现宕机、闪退、崩溃等不稳定现象。则表明你得处理器已经存在了不可逆损伤(缩缸),则建议应用如下设定。
  • 套用intel baseline或intel default setting,再套最保守的IA VR VMAX为1350毫伏,ICCMAX为280A,PL1为200W,PL2为220W的设定,这是最后能做的选择。也可以进一步降低设置值。
  • 开启CEP,报着死马当活马医的心态看看。
  • BIOS关闭处理器节能C-state,系统属性调整电源模式为高性能或卓越性能,从下限层面为稳定性兜底。
  • 上述一系列设定后还不稳定的,请售后质保RMA。
  • 如果处理器没有质保,并且宣告报废的话。可以考虑5到7折挂闲鱼并标明为坏处理器,会有专业回收坏处理器的,至少能回血一部分。或者干脆自己做钥匙扣收藏回味吧。


===========分割线===========

阅读正文之前,建议先了解我们此前已经发表的各个阶段总结,以知晓我们过去一年里所有工作的精髓,便于更好理解正文故事中的时间线:




这里特别感谢我们的合作伙伴豫西西电机房(本文简称:西电机房,或:机房),在过去的一年多时间里提供机房多台工作站13900K、14900K、14900KS供我们测试调整与问题分析。如果没有西电机房的支持,我们对问题原因的探索之路也不会如此之快。

时间线,故事是如何开始以及如何发展的:

前言:众所周知最近几个月有多个媒体报道关于intel第13、14代处理器在一些云桌面云游戏的数据中心场景下存在的不稳定现象问题。报道中所提到的情况,与我们合作伙伴西电机房遭遇的情况如出一辙,唯一不同的是,在西电机房那边所遇到的问题更为严重和频繁,因为机房的机器更多是应用于科学计算生产力领域包括不限于matlab、编译、Python、comsol、R、ansys、abaqus、DYNA等。

2023年1月,实际上,西电机房早在2023年1月份就向我们报告关于13900K机器偶发性出现宕机问题,宕机表现为:异常重启、蓝屏、屏幕冻结死机、软件崩溃闪退(本文会将这一系列现象统称为:不稳定)。因为我们是技术上的合作伙伴,他们多次邀请我们协助分析和调查原因,从此故事边拉开了序幕。

西电机房那边一开始部署了大约十几台13900K工作站,有数台机器会偶发不稳定,没有确切的规律可循。当时全网关于intel第13代处理器不稳定报道与反馈很少。起初我们判断可能是驱动或软件层面问题,所以建议重装原版系统、安装最新驱动,在随后使用中保持观察寻找问题出现的规律。并且出问题的机器暂时不投入使用,确定是否只是个例。

2023年5月,他们机房业务来到了一小波高峰期,13900K工作站增加到了大约40台数量。但是出现问题的机器数量也更多了,至少有十几台机器都曾出现过一次或多次不稳定问题。我们分析问题在主板或处理器方面。因为他们搭配的主板是Z690,所以我们建议采购一批B660芯片组主板观察问题是否复现,同时对严重不稳的机器更换处理器尝试。在随后的几个月时间里,该方案有一定效果。尤其是更换为B660芯片组主板后,不稳定现象概率骤减。即使是容易出现不稳定现象的机器,更换处理器也能够多半解决问题。并且我们也建议等待后续几个月BIOS更新看看有无改善。

2023年年底,西电机房那边开始采购部署14900K。这才是麻烦真正的开始,问题发展向高潮。一开始他们部署了十台左右14900K工作站。但不到一个月时间,几乎每一台14900K工作站都出现过至少一次或多次的不稳定现象。我们当时也快疯了,因为如果仅仅按照过去经验,搭配B系列芯片组主板,以及更换故障处理器的方法很显然无法应对如此庞大的问题规模。于是我们建议是短期内不要投入使用14900K机型,保持13900K、13900KS为主,并等待后续BIOS更新看看能否修复问题。因为我们认为可能是BIOS缺陷导致的普遍不稳定现象,于是时间一转到了2024年。

2024年3月,西电机房那边在过去的几个月更新过多个版本BIOS进行测试,向我们反馈问题未得到有效解决。于是我们也坐不住了,也下决心分析下问题原因,使用他们机房的大约十台14900K工作站,进行大海捞针一般进行不稳定问题的探索与研究。

2024年4月份,我们得出了第一个阶段性总结:intel的13、14代处理器存在大规模的不稳定情况。并且发表了对应的文章和帖子。关于intel baseline设定测试总结,尚未完全解决第13和14代13900K 14900K酷睿i9处理器的稳定性问题,生产力场景仍然不可靠
CHH论坛对应帖子内容:https://www.chiphell.com/thread-2601877-1-1.html

2024年4月5月。我们可忙坏了,因为4月intel公布了baseline设定,华硕主板也更新了baseline设定选项。这两个月里我们每天都在重复测试14900K工作站,寻找问题发生的规律,真的如同大海捞针一般,因为完全没有任何经验参考。但是很快我们就有了发现:不稳定现象的表现与曾经的过度超频导致的不稳定现象如出一辙。于是乎我们采取反向超频思维,还别说,真的很有成效,我们很快就发现了问题规律。具体表现是:部分软件只要一运行就闪退或崩溃,或者长期生产力测试一段时间后就会软件闪退或宕机。并且在多台机器上的问题表现是相同的,总算是有了一点线索和头绪,我们认为问题并不简单,不仅仅是单方面的。

2024年4月和5月,我们的重要发现:处理器处于轻度负载必定大概率不稳定;处理器在快速且复杂的负载波动下大概率不稳定;baseline设定未能有效解决不稳定现象。

2024年4月和5月,我们所做的较为有效的应对不稳定现象的设定与调整:关闭处理器节能,限制P核最高睿频频率,限制ICCMAX、PL1、PL2。通过结合使用,能有效降低不稳定现象出现的几率。但是我们还没办法准确确定到底是哪个因素引发的不稳定问题,所以我们认为问题一定是多方面的。

2024年6月,我们放松下来了,因为我们提供的调整策略,已经可以西电机房那边的机器相对稳定的运行,虽然性能有一定损失,但总比宕机了好。也正是这段时间,全网关于intel第13、14代酷睿处理器不稳定的报道以及内容遍地开花。我们也花了一些时间浏览众多的内容和信息,并与我们自己的测试结论交叉验证,并在必要的时候再进行调整和测试。

2024年6月,我们的重要发现:将13900K、14900K、14900KS的P核核心频率限制到5.3、5.4、5.5Ghz以内后,能提高部分生产力测试的通过概率,并且提高了某些情况下的稳定性。这对我们后来对于最终问题的探索与分析起到了至关重要的作用。

2024年7月,全网处处都能看到关于intel第13、14代处理器运行不稳的声音,我们也坐不住了,于是审时度势发表了一篇避坑指南,由于当时还不确定造成不稳定的最终原因,所以我们建议避开主频过高的处理器。2024年7月,现阶段避坑intel 13 14代处理器不稳定问题的处理器选购和使用建议,针对个人游戏应用方面的装机或升级CPU
CHH论坛对应帖子内容:https://www.chiphell.com/thread-2617819-1-1.html

其实当时我们已经离问题最终答案非常近了,因为频率与电压直接挂钩。只是因为此前采取的测试方法存在一点点瑕疵,浪费了很多时间与机会。但是我们也开始注意到处理器cache频率,cache跟处理器电压也直接挂钩,所以我们在CHH论坛发表了关于cache超频的讨论帖,从有超频经验的玩家中了解cache频率的关系,这对最终问题的确定有很大的帮助。https://www.chiphell.com/thread-2623656-1-1.html

2024年7月底8月初,从众多不稳定问题报道中,结合我们自己长久累积下来的经验与结论分析,最终将问题锁定在电压方面。因为无论是核心频率,还是cache频率,都与电压因素直接挂钩。并且低端SKU到高端SKU,出现不稳定的概率也是从低到高,这其中的关系除了频率,就是电压。而且从逻辑层面分析:intel的第13、14代处理器在提升频率的同时,不断提高电压,很可能高电压超过了10纳米工艺的极限。

于是我们立刻去西电机房那边,对机房内部分14900K和14900KS工作站采取新的设定与新的测试方法。最终在8月初的几天,伴随多台机器顺利通过测试的喜讯,我们也准确的确定了问题最终原因:IA VR VMAX,即电压与电压墙。

2024年8月初,我们发现:通过限制IA VR VMAX为1350毫伏或1400毫伏以内,处理器未发生过任何不稳定现象,即使持续十多小时苛刻的生产力测试,也非常稳定。至此宣告整个系列的故事圆满画上句号。

2024年8月中旬,我们已测试0X129微代码更新,在套用intel baseline或intel default setting后,生产力顺利通过测试。但是0X129微代码的处理器核心电压最高还是会达到1500毫伏,因此我们对如此高的电压长期使用可靠性仍旧存有疑问。

===========分割线===========

2024年8月5日,本文发表时,intel对于第13、14代酷睿处理器运行不稳定的现象仍旧未给予完美的解决方案。虽然在过去的几个月里,intel多次发布微代码尝试修复或解决问题,但似乎并未能起到绝对有效解决不稳定问题的作用。

最新消息是intel将在8月中旬发布关于电压策略调整优化的微代码修复,我们预计会限制处理器电压上限,很可能将限制在1500毫伏左右或以内,具体视SKU规格稳定。我们认为intel的10纳米工艺所能承受的在数年内稳定运行的电压应该是在1400毫伏至1500毫伏以内。提高电压能提升频率,但是会降低稳定性、耐久性与可靠性。降低电压会降低最高频率,但是提高稳定性、耐久性与可靠性。因此8月中旬的微代码具体会对处理器核心电压策略方面做出何种调整,我们也拭目以待。

题外话:我们觉得intel应该做出实际行动,在下一代桌面处理器发布后,为每一位购买13600K及以上,以及14600K及以上型号处理器的一手买家提供免费更换下一代对应级别桌面处理器规格的政策,毕竟每一位13代与14代处理器的一手买家都是这场不稳定风波中的受害者。

最后,感谢这过去一年里,参与本故事中的那些默默无闻付出的朋友们:地球发展联盟www.s-ss.cc,豫西西电机房,kmdkai,ufo1996215,开鑫,华硕技术支持,CHH论坛。
















评分

参与人数 10邪恶指数 +165 收起 理由
witson + 20
chinawofe + 10 就是NB
vicary27 + 20
醉酒棕熊 + 30
nickyos + 20
makeit + 10 支持一下
楚门的世界 + 10 支持一下
Neptrock + 20 支持一下
wesleyxy + 20 支持一下
mofeielva + 5

查看全部评分

 楼主| 发表于 2024-8-7 17:24 | 显示全部楼层
本帖最后由 kmdkai 于 2024-8-9 14:10 编辑

2楼我自己占用备用,后续帖子更新补充内容我在本楼更新。

2024年8月8日,我们已经开测华硕最新放出的beta版BIOS,更新0x129微码。测试结果出来后我们单独开贴分析和发表结论。预计最快3天内,最多5天内。

2024年8月9日,我们会在后续的一个月内忙里抽闲摸一下13900K 14900K 14900KS生产力的上限设定。因为正文给的VMAX,ICCMAX,PL限制偏保守,也是为了解决眼下最紧迫的问题先行发出。预计在一周或半个月后,正文会逐步更新已生产力过测的值,供各位参考之用。
我们都是生产力场景测试,严苛程度远超大家日常使用场景包括压力拷机测试。因此可以放心在建议值上再提高10%~20%,基本不会有问题。
发表于 2024-8-7 17:35 | 显示全部楼层
样本量还是不够,不过已经很努力了
发表于 2024-8-7 17:37 | 显示全部楼层
前排占位再看
 楼主| 发表于 2024-8-7 17:40 | 显示全部楼层
theshy 发表于 2024-8-7 17:35
样本量还是不够,不过已经很努力了

过去一年多时间,我提到的合作伙伴机房总计部署过大约七八十台13900K
后续升级14900K的时候部署了大约60台。
14900KS大约30多台。
数量也不算少了,几乎大多数我们都帮忙调试过。目前已经都处于稳定运行状态。他们机房这类工作站都是做生产力用途的,可比一般用户的负载苛刻多了。
发表于 2024-8-7 17:40 | 显示全部楼层
给出量化数据算是有成果了,总比黑盒子微码,各种神棍引起恐慌好得多。

既然找不到原因,那只能去适应它。
发表于 2024-8-7 17:41 | 显示全部楼层
跑解压缩测试就行 游戏加加的cpu测试里面有或者用7zip。
某些人可不要说没问题都要测出问题 这是日常生活中需要经常用到的解压缩 要是这个都没能过 你这u本来就是坏的
 楼主| 发表于 2024-8-7 17:44 | 显示全部楼层
LRJ 发表于 2024-8-7 17:41
跑解压缩测试就行 游戏加加的cpu测试里面有或者用7zip。
某些人可不要说没问题都要测出问题 这是日常生活中 ...

我们自己在应用我们提出的设定方案后,后续也有用游戏加加做过几台机器的测试,暂时没发现问题。
发表于 2024-8-7 17:47 | 显示全部楼层
有限元仿真压力确实大,CPU和内存哪个不稳一点都不行,以前在TR的3970X上小超了一点跑8K视频编解码屁事没有,有限元仿真一跑一个崩,一般大的工程一跑就是几天中间崩了会极大浪费时间
发表于 2024-8-7 17:49 | 显示全部楼层
本帖最后由 vasomax 于 2024-8-7 17:51 编辑

本来到4月时候的BIOS还没事 ,结果5,月 7月的BIOS, 电压不降反而搞,倒反天罡....
然后那些本来没事的的用户,一看新闻 ,怕会有事 ,升级了BIOS,结果就都真的出问题了
发表于 2024-8-7 17:49 | 显示全部楼层
难受,微星板子的BIOS似乎没有IA VR VMAX类似的选项
 楼主| 发表于 2024-8-7 17:52 | 显示全部楼层
gladiator 发表于 2024-8-7 17:47
有限元仿真压力确实大,CPU和内存哪个不稳一点都不行,以前在TR的3970X上小超了一点跑8K视频编解码屁事没有 ...

我们至今还印象深刻:刚接触那些14900K工作站,全默认设定的状态下,打开测试用的comsol直接秒闪退,试几次都不行。而且所有14900K机器都是一样的现象。
从这开始让我们大海捞针般的问题寻找过程有了一些头绪。
 楼主| 发表于 2024-8-7 17:53 | 显示全部楼层
vasomax 发表于 2024-8-7 17:49
本来到4月时候的BIOS还没事 ,结果5,月 7月的BIOS, 电压不降反而搞,倒反天罡....
然后那些本来没事的的用户, ...

因为2024年开始都偷偷采用默认的ACLL DCLL了,直接影响就是电压更高了。
发表于 2024-8-7 17:58 | 显示全部楼层
kmdkai 发表于 2024-8-7 17:52
我们至今还印象深刻:刚接触那些14900K工作站,全默认设定的状态下,打开测试用的comsol直接秒闪退,试几 ...

从那之后我们公司跑仿真就基本只用品牌工作站了,正好公司有批老HP的工作站,双路老E5+ECC内存慢是慢了点至少稳定
发表于 2024-8-7 18:00 | 显示全部楼层
话说手动开启CEP能让已经缩了的能用吗
能用指的是不崩,能打游戏不崩那种
 楼主| 发表于 2024-8-7 18:02 | 显示全部楼层
YoshinoSakura 发表于 2024-8-7 18:00
话说手动开启CEP能让已经缩了的能用吗
能用指的是不崩,能打游戏不崩那种 ...


我们设定的都是关闭CEP用的,没发现任何问题。
且目前我们自己的测试结论是,CEP开关对稳定性改善方面没有任何实质性作用。
发表于 2024-8-7 18:03 | 显示全部楼层
https://www.chiphell.com/thread-2624669-1-1.html

你这个好像确实和隔壁猫猫头对上了一部分甚至你这边电压墙设置的更保守,话说你这边的生产力环境的稳定性需求,如果跟跑分软件比如cinebench、yc、P95等相比的话,和哪种压力负载近似?
发表于 2024-8-7 18:06 | 显示全部楼层
YoshinoSakura 发表于 2024-8-7 18:00
话说手动开启CEP能让已经缩了的能用吗
能用指的是不崩,能打游戏不崩那种 ...

CEP的目的是让硅渣电上去,而不是稳定性,CEP不关心稳定性。
发表于 2024-8-7 18:08 | 显示全部楼层
hyfgreg 发表于 2024-8-7 17:49
难受,微星板子的BIOS似乎没有IA VR VMAX类似的选项

防掉压放到3或者4
acll 1
dcll 10(防掉压3)或者15(防掉压4)
tvb电压优化和avx补偿电压这俩都关掉
以上几个设置完,基本就能起到电压墙类似的效果了,电压会在一个范围内变动,不会无脑冲高,在这个基础上去找合适的offset值,如果还是嫌麻烦,就直接定压定频,当然如果cpu体质本来就比较差,可能会需要降频
 楼主| 发表于 2024-8-7 18:09 | 显示全部楼层
PPXG 发表于 2024-8-7 18:03
https://www.chiphell.com/thread-2624669-1-1.html

你这个好像确实和隔壁猫猫头对上了一部分甚至你这边电 ...

生产力科学计算对机器来说就像是铁人三项或马拉松必须拿前三名。
cinebench YC P95对机器来说就像是健走必须拿前十名。
发表于 2024-8-7 18:15 | 显示全部楼层
你这电压墙给的真的不低么?我降压之后,我看hwinfo记录的最高电压都会出现超过一点的情况
发表于 2024-8-7 18:17 | 显示全部楼层
本帖最后由 vasomax 于 2024-8-7 18:21 编辑
kmdkai 发表于 2024-8-7 17:53
因为2024年开始都偷偷采用默认的ACLL DCLL了,直接影响就是电压更高了。


147KF设置 1350 ,其他全解除限制  ,直接掉了100W.温度低了20度,不过我在原有OFFET基础上直接改1350,然后降频5100-5200

不设这个之前是89X.150XX,FPU 95度
我之前反复摸OFFSET,正好摸到最低点最不降分数...
屏幕截图 2024-08-07 181204.png
 楼主| 发表于 2024-8-7 18:18 | 显示全部楼层
卢奇亚诺 发表于 2024-8-7 18:15
你这电压墙给的真的不低么?我降压之后,我看hwinfo记录的最高电压都会出现超过一点的情况 ...


我们建议的电压墙是经过很多台机器生产力实测验证过能稳定运行的。并且理论分析对处理器应该不会有长期不可逆影响。
例如我们限制1400毫伏,hwinfo监测生产力测试全程到结束没有超过1395毫伏。华硕的主板电压应该比较准确的。其他品牌主板我们就不清楚了
发表于 2024-8-7 18:26 | 显示全部楼层
我这颗149K 690黑刀锋 SOCKET 防掉压5  Die Sense电压 全核58 1.245  57 1.185   56  1.14     55 1.1  53  1.035  

TVB 55-1 65-1

AC50 DC80

PL1 188W PL 220w 128S  电流墙307A

日常游戏都58跑,夏天室温高负载高偶尔掉到57 短时间重载跑55 43  长时间重载跑53 42  室温28的情况下 无论怎么整都不会上70度 散热是602 追风者420+9RA (80以下就800~1200转)

R23 15随便挂机瞎跑  首发到现在一点没缩过。


发表于 2024-8-7 18:32 | 显示全部楼层
nf3059 发表于 2024-8-7 18:26
我这颗149K 690黑刀锋 SOCKET 防掉压5  Die Sense电压 全核58 1.245  57 1.185   56  1.14     55 1.1  53  ...

你设了能降频,确实就没事了
苦的是那些不太懂,一开始买回去全默认,用了也没啥事, 后来网上听说可能会有事,去升级了BIOS,结果反而.....
发表于 2024-8-7 18:34 | 显示全部楼层
我这边14900KS,开启的Intel Default Setting - Extreme,内存XMP 8000 C40,主板Z790 Apex,永劫无间/CS2,开启HWINFO记录,VID显示最高是1.505,Vcore不超过1.5,有没有分析过超过这个电压是什么情况下产生的呢?CPU温度原因?
发表于 2024-8-7 18:34 | 显示全部楼层
gladiator 发表于 2024-8-7 17:47
有限元仿真压力确实大,CPU和内存哪个不稳一点都不行,以前在TR的3970X上小超了一点跑8K视频编解码屁事没有 ...

写个重启动
发表于 2024-8-7 18:46 | 显示全部楼层
本帖最后由 vasomax 于 2024-8-8 00:38 编辑
scottbest 发表于 2024-8-7 18:34
我这边14900KS,开启的Intel Default Setting - Extreme,内存XMP 8000 C40,主板Z790 Apex,永劫无间/CS2 ...


大兄弟,你赶紧手动降点吧  
发表于 2024-8-7 18:49 | 显示全部楼层
我的微星主板,还不知道怎么设置。。。
发表于 2024-8-7 18:51 | 显示全部楼层
jwongsv 发表于 2024-8-7 18:49
我的微星主板,还不知道怎么设置。。。

不会搞这个IA MAX ,直接说你啥U, 手动降电压,限制功耗
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2024-11-14 12:40 , Processed in 0.016037 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表