[清算统计]哪家的主板纸面支持PCIe5.0而面对blackwell需要降级
本帖最后由 T.JOHN 于 2025-2-4 18:53 编辑2/4/2025 更新:分割两块,避免传达令人误会的信息 & 更新本坛的用户案例
正经部分:
问题背景:
想当年(21Q4,3年前)我牢英ADL超前支持PCIe5.0,市面根本没设备,除了少量SSD,而SSD接口还近点,对信号要求肯定没GPU这种x16用户那么高,就算掉盘,也很难判断是主板问题。现在老黄继曝出intel缩肛蓝屏之后,又贡献了板厂信号不合格的检测工具,真是质检之王,硬件灯塔。
检测方法:
管理员权限打开cmd/powershell 运行“nvidia-smi pci -gErrCnt”,如果有信号错误,数量会增长。不行换 "nvidia-smi dmon -s et -d 10 -o DT" 跑个3dmark或者游戏,最好是下个forge,跑几张AIGC(显存填满),然后后台开着看有没有报错
报告解读:
如果像 @sinopart 一样,仅跑出BAD_TLP,则问题不大。这种错误数据包会被丢弃或者重发。如果出现大量lane error/pci error,那是数据错误,可能会导致黑屏死机。
用户实例:(仅统计本坛)
@jzz , 七彩虹Z690+5080,症状:闪屏黑屏花屏etc。恢复手段:切PCIe4.0正常
@6cgl1s,铭瑄z790i+5080,症状:不报错,但跑分过低。恢复手段:切PCIe4.0正常
@cloud,msi x870+5090d,症状:开始正常,后来不稳定。恢复手段:切PCIe4.0或者换asus主板
信号检测:
46楼@aixunxian使用Mellanox网卡测试命令-mlxlink,检测信号的眼图等级,提供余量等级及Gen3/4过测标准,查看每个PCI lane信号是否达标。
至于啥是眼图,参考5年前帖子 PCIe 4.0时代慎用用延长线这种东西(被折叠看不到了)里引用过PCI-SIG的眼图,那个帖子主要讨论retimer和redriver的:
https://p.sda1.dev/21/66317ecf5f2c71df95652a4d9b62867e/900x185xFigure,P203,P20-,P20Example,P20of,P20an,P20eye,P20attenuated,P20by,P20a,P20channel,P20,P28left,P29,P2C,P20the,P20eye,P20after,P20a,P20redriver,P20,P28middle,P29,P20and,P20the,P20eye,P20after,P20a,P20retim.png
引发原因:
主板板材,布线;cpu的pcie控制器的驱动能力;电源的纹波干扰*以及pcie设备自己 etc.
*@啊对对对 2楼所提供案例
衍生话题:
[*]AMD iodie面世:zen2面世以后x300/x400起初第一版agesa是支持PCIe4.0的,苏妈未雨绸缪,怕这些PCIe2.0升上来的板子不稳定,直接一刀全切了
[*]板厂R&D资源:板厂能处理更高频的DDR信号,理论上R&D处理PCIe信号也不是问题
[*]PCIe5.0新增硬件:牢英推出PCIe5.0板子的时候,就给了个标准,然后找供应商生产5.0 x16槽,5.0的口都得用那个槽,这就是成本
[*]板厂R&D测试:信号总有发送端和接收端,板子就是个电线,板厂R&D没设备做真件验证,所以不能全怪板厂,也许大家都觉得牢英的设计是没问题的。只是不知道R&D用没用测量信号的设备测过自己的x16槽的信号完整性,是-xxdb?
[*]可用真件:比blackwell更早的PCIe5.0x16设备只有H100和摩尔线程,这两个一个死贵,R&D想只定1片都得靠和NV的关系,另一个太小众也不见得有参考价值。
注:@Juzi丶补充NVIDIA 21年5月上市了PCIe16x设备
[*]玩家用途:论坛有人想拆分PCIe5.0x16中的x8给显卡,然后x8给SSD使用的可能得看看硬件够不够这个水平了。看起来发生掉盘,黑屏看来都是可能的
娱乐部分:
目前ASUS故障遥遥领先,因为首发用户用ASUS多,不是X870hero就是X670 hero,配合9800x3D。Tony是不是让R&D出个BIOS来优化下?还是先天不足没得救了?只能降级PCIe4.0?当然也有可能是苏妈的io die pcie控制器弱鸡[怪脸] 看了下本坛,贴吧,B站,NGA,貌似还没说牢英要降级的,真是赢麻了[偷笑]据说大英2026年nova lake又要支持PCIe6.0了,板厂是不是考虑加强点信号,Z990多给两层板?
That's all, ENjoy! 懒得再更新了[怪脸] 检测方法应该补充下,降级到PCIe4.0后错误计数一直保持为0
我这40老卡在低频下错误会一直增长,手动锁了个2000MHz高频后错误不再增长,降级PCIe一点用都没,但是换了个台达电源一切又正常了,这信号错误有可能是电源导致的 啊对对对 发表于 2025-2-3 19:39
检测方法应该补充下,降级到PCIe4.0后错误计数一直保持为0
我这40老卡在低频下错误会一直增长,手动锁了个 ...
没想到我黄的卡不但能检测主板,还能检测电源,灯塔之名果真空穴来风[音乐] 啊对对对 发表于 2025-2-3 19:39
检测方法应该补充下,降级到PCIe4.0后错误计数一直保持为0
我这40老卡在低频下错误会一直增长,手动锁了个 ...
16pin供电不足,显卡从PCIE额外取电导致PCIE 5.0电气信号不够了?我瞎猜的[偷笑] czzk183 发表于 2025-2-3 19:43
16pin供电不足,显卡从PCIE额外取电导致PCIE 5.0电气信号不够了?我瞎猜的
低频出问题,锁高频反而没问题,可能铜牌老电源在节能启用后波纹什么的输出不合格了吧 本帖最后由 tide~ 于 2025-2-3 19:57 编辑
电源纹波好测吧,借个示波器测下;对高频的干扰相对小? 790也跑不掉 多半。。。之前不就说BUG王中王也会降吗 啊对对对 发表于 2025-2-3 19:44
低频出问题,锁高频反而没问题,可能铜牌老电源在节能启用后波纹什么的输出不合格了吧 ...
怎么有种AMD的U电压减太多内味。 T.JOHN 发表于 2025-2-3 19:42
没想到我黄的卡不但能检测主板,还能检测电源,灯塔之名果真空穴来风
还能检测13 14代缩缸呢[偷笑] 有没有可能跟ASPM有关连性?
有大佬试试吗? 板厂能处理更高频的DDR信号,理论上R&D处理PCIe信号也不是问题
这俩能调的不是一个东西。。。一个是并行,一个是串行信号,而且能调的也只有收发器两端的设备,你也说了中间的就是电线,所以还是要依靠cpu原厂去修改里面的设置(如驱动能力等等)
牢英推出PCIe5.0板子的时候,就给了个标准,然后找供应商生产5.0 x16槽,那玩意也不便宜
那个是按照pci-sig规范来的,不是啥都是intel给的
信号总有发送端和接收端,板子就是个电线,板厂R&D也没设备做真件验证,信了按牢英设计做就一定行,所以不能全怪板厂(不按牢英说的做的两说)
这也是需要按照pci-sig规范来做。。。是需要自己验证的,但是很贵,板子这么多也没时间挨个测,板材也不愿意上低损耗板材。。。 本帖最后由 病嬌鬼畜蘿莉控 于 2025-2-3 20:55 编辑
管理员权限打开cmd/powershell 运行“nvidia-smi pci -gErrCnt”不行啊 病嬌鬼畜蘿莉控 发表于 2025-2-3 20:54
管理员权限打开cmd/powershell 运行“nvidia-smi pci -gErrCnt”不行啊
nvidia-smi dmon -s et -d 10 -o DT zhao1999250 发表于 2025-2-3 20:51
板厂能处理更高频的DDR信号,理论上R&D处理PCIe信号也不是问题
这俩能调的不是一个东西。。。一个是并行, ...
不矛盾。第一条我指的是技术能力,包括人员和(测量)设备,就铭瑄那种我估计不太行。第二条和第三条我如果没记错绝大部分内容都是intel写的,pci-sig的文档也是来自于各大公司。 我在X670E上跑5.0最神奇的问题是,远端的m2运行在gen5时,会导致某个南桥通道不认nvme设备(但还是可以认pcie设备)
非常amazing,完全不知怎么解释。 如果能稳定跑gen5,跑gen6应该问题也不大,这两工作频率是一样的,更换了编码 本帖最后由 lordts 于 2025-2-3 21:26 编辑
tuf 850m wifi 技嘉5080魔鹰。pcie5.0 x16使用中两天了没有任何问题,显卡直插主板。
这板子还是老的显卡快拆完美避开rog的坑。rog真的就只坑富哥。 T.JOHN 发表于 2025-2-3 21:13
nvidia-smi dmon -s et -d 10 -o DT
应该没问题吧,吾辈是Z690设置的一槽是PCIE5.0X16,显卡是4080 病嬌鬼畜蘿莉控 发表于 2025-2-3 21:26
应该没问题吧,吾辈是Z690设置的一槽是PCIE5.0X16,显卡是4080
你可以跑个游戏或者3dmark,这个窗口后台一直开着,它始终在监控。那列pci errors如果增加了就是出错了,现在是0,正常的。 巴特沃斯 发表于 2025-2-3 21:18
我在X670E上跑5.0最神奇的问题是,远端的m2运行在gen5时,会导致某个南桥通道不认nvme设备(但还是可以认pc ...
不晓得,这主板我不了解topology,不管是不是二仙桥,开个ticket给asus吧。看起来像是信号处理问题,或者模式切换问题。 提前收了战未来的钱,终于等到这一天来到的时候其中一部分却发现战不了,太搞笑了 铭瑄z790i没稳定性问题,但跑分异常低一档,不清楚问题出在哪儿 不说PCI-e 5.0了,就哪怕是PCI-e 4.0 / DDR4, 530精密电子清洁剂都得常备。
坐标上海,不插防尘塞/设备的PCI-E 4.0过一个梅雨季肯定通道认不全, 3.0也都有可能 我这4080,用的转接线,用了一年多,平时用和玩游戏没任何问题,但用这个命令看,error一直在增加,咋回事 病嬌鬼畜蘿莉控 发表于 2025-2-3 21:26
应该没问题吧,吾辈是Z690设置的一槽是PCIE5.0X16,显卡是4080
4080只支援PCIE 4.0啊。。。 坛子里一位坛友成功畅玩 5080打游戏的。平台就是七彩虹z690 也是需要降成4.0速率才可以。 目前群里水友的5080fe,主板b650ei,无法开启5.0速率,降级到gen4×16,非常稳定,且error数都为0(有正常计数那项不算)……
论坛那个七彩虹z690,搭配的5080 风魔,也一样要降级4.0……
综合来看,感觉这次主板厂商要挨个测自己5.0板子的兼容性了,出来了太早,这次才算有配套的显卡大规模测试。 KimmyGLM 发表于 2025-2-3 23:03
目前群里水友的5080fe,主板b650ei,无法开启5.0速率,降级到gen4×16,非常稳定,且error数都为0(有正常 ...
就不能承认 是首发零售90 80显卡是缺陷残次品 就上市吗? 一大堆up首发评测配着X870e也没见着谁刻意pcie 降速 跑分,跑游戏的。5.0的固态盘都出来几年了也没出 这种幺蛾子。
黄卡就屁事多。
首发很多up是特定送测驱动能跑稳,一般用户正式驱动就跑不稳。不觉得怪吗 sekiroooo 发表于 2025-2-3 23:14
就不能承认 是首发零售90 80显卡是缺陷残次品 就上市吗? 一大堆up首发评测配着X870e也没见着谁刻意pcie...
上面就有水友正常开启5.0×16的案例,目前全球首批卖出这么多卡,反馈出来的占比还是不算多。首发肯定有各种幺蛾子的,每代不重样 现在都是直连CPU 感觉也不排除某些CPU自身的问题吧?