找回密码
 加入我们
搜索
      
查看: 2307|回复: 26

[网络] 带有4121a的网卡的win11开机后有概率瘫痪傻瓜交换机

[复制链接]
发表于 2024-11-17 22:53 | 显示全部楼层 |阅读模式
困扰我挺久的一个问题了,实在没有思路,来见多识广的chh求助一下

先讲一下环境

电脑系统win11 23h2,网卡hpe的cx4121a-xcat(自己按别人的教程改了25g),网卡插在了pch的x4槽上
这个网口是配置是dhcp,由家里的软路由下发ip和dns啥的
交换机是磊科的gs10,有两个万兆口,一个上联到家里的万兆交换机,一个连接到cx4,用的是aoc sfp+,握手速度是10gbps

故障是这台电脑开机的时候,有一定概率整个交换机上的设备都没网,但是家里的万兆交换机是正常工作的,插拔一次aoc就没问题了
也不是百分百能复现,因为一天最多开关两三次机器,有时候手动插拔一次就好了
如果是在超频这种频繁开关机的情况下就很容易复现,整个交换机下的设备都没网了

最奇怪的是前面九点多的时候在没有开关机的情况下,这个交换机也没网了,插拔一次就没事了

交换机是傻瓜交换机,自己试过更换两个万兆口的顺序,问题依旧
这个交换机网口指示灯是定期闪烁的,也没办法看出来当前使用情况
联系了官方售后,他们的工程师说也没有好的办法,只能有问题的时候再联系再来抓包看看?

网卡的温度不高,用命令行看了一下没超过50度,大部分时间45-50之间徘徊,有一个t30对着散热片吹的

win设置里每一个网卡都没有开启internet共享,应该也不是环路,没问题的时候整个内网延迟都是正常的

软路由里没看到这个ip没有其他的冲突,这个mac只和一个ip对应
 楼主| 发表于 2024-11-17 22:56 | 显示全部楼层
手打一下设备管理器里的cx4网卡的属性,没有动过,但是还是贴上来看看
dcbxmode firmware in charge
devx enable 不存在
disable local loopback flags 不存在
dscp value of roce rtt response 不存在
encapsulated task offload enable
encapsulation overhead 0
flow control rx&tx enabled
interrupt moderation enabled
ipv4 checksum offload rx&tx enabled
jumbo packet 1514
large send offload v2 (v4+v6) enable
maximum number of rss process&queues 8
multipriosq enabled
network address 不存在
network direct maximum transmission 1024
networkdirect functionality enabled
networkdirect technology 不存在
nvgre encapsulated task offload enabled
packet direct enabled
preferred numa node 65535
priority & vlan tag both enabled
ptp hardware timestamp enabled
quality of service enabled
receive buffers 512
receive completion method adaptive
receive side scaling enabled
recv segment coalescing (v4+v6) enabled
rss base processor number 0
rss load balancing profile closest processor
rx interrupt moderation profile adaptive
send buffers 2048
send completion method interrupts
sriov enabled
tcp/udp checksum offload (v4+v6) rx&tx enabled
tx interrupt moderation profile moderated
udp segmentation offload (v4+v6) enabled
virtual machine queues enabled
virtual switch rss enabled
vlan id 0
vmq vlan filtering enabled
vxlan encapsulated task offload enabled
vxlan udp destination port number 4789
 楼主| 发表于 2024-11-17 23:00 | 显示全部楼层
另外hpe这个cx4121a在永擎的c246主板上无法开启sriov,官方文档和其他人的笔记都看过了,开了8个就分不出vf来,开5个的话能分出vf,lspci能看到,但是把vf非给虚拟机的话整个虚拟机就无法启动了,提示找不到pcie设备,lspci看了一下确实原本分出来的vf都没有了

但是这块板子上intel的x550的vf一点问题都没有,打开即用

两个cx4都有问题,我都不知道是我的原因还是卡的原因了

各位老哥有思路的话请细说,谢谢
发表于 2024-11-17 23:13 | 显示全部楼层
换一个网卡试试呗,多简单的事
发表于 2024-11-17 23:24 | 显示全部楼层
换 DAC 线试试
 楼主| 发表于 2024-11-17 23:38 | 显示全部楼层
文泰来 发表于 2024-11-17 23:13
换一个网卡试试呗,多简单的事

前段时间想换542b的,因为散热原因纠结了几天,542b直接从200涨到300了。。。
我先换dac线看看,再不行换其他4121试试
发表于 2024-11-18 00:14 | 显示全部楼层
我和你几乎一样的配置,两块cx4121a分别在主机和nas上,兮克4*25.G+2*10G带管理的,用的DAC线,稳定没有问题
发表于 2024-11-18 02:52 来自手机 | 显示全部楼层
xiaol1n7 发表于 2024-11-17 23:00
另外hpe这个cx4121a在永擎的c246主板上无法开启sriov,官方文档和其他人的笔记都看过了,开了8个就分不出vf ...

我遇见过类似问题。sriov最多开6个。这是主板bios的问题。无解。用一张卡换主板就没问题
发表于 2024-11-18 10:57 | 显示全部楼层
我有两张戴尔的,都刷了25G固件,用在C246和z690上,从23h用到24h没出过毛病,不过用的是华为的光模块和捡的n手企业交换机;


 楼主| 发表于 2024-11-18 14:25 | 显示全部楼层
summerq 发表于 2024-11-18 02:52
我遇见过类似问题。sriov最多开6个。这是主板bios的问题。无解。用一张卡换主板就没问题 ...

最奇怪的是同一块板子,intel的x550可以无痛直接开,但是cx4就是不行
两个唯一的区别是x550在pch上,cx4接在cpu通道上
发表于 2024-11-18 14:32 | 显示全部楼层
见过类似故障,光纤收发器故障干翻了傻瓜交换机,傻瓜交换机的灯一个一个灭,10秒后再整体亮,然后再一个一个灭。换光纤收发器后恢复。还有就是一个万兆网卡,怼翻了,二层交换(默认设置,全部端口都是vlan1)从AOC线换DAC线后正常。都是和光电转换有关。
发表于 2024-11-18 14:32 | 显示全部楼层
xiaol1n7 发表于 2024-11-18 14:25
最奇怪的是同一块板子,intel的x550可以无痛直接开,但是cx4就是不行
两个唯一的区别是x550在pch上,cx4 ...

VF会占用地址空间,有的bios预留的地址不够。11代之前的平台(包括E3)缺少ACS等支持,会导致SRIOV异常,但是可笑的是PCH对ACS的支持是完整的,没错,intel就是这么拉,AMD是反过来,CPU支持完善但是PCH拉跨。
 楼主| 发表于 2024-11-18 16:10 | 显示全部楼层
rx_78gp02a 发表于 2024-11-18 14:32
VF会占用地址空间,有的bios预留的地址不够。11代之前的平台(包括E3)缺少ACS等支持,会导致SRIOV异常, ...

谢谢,算是解惑了,换板子成本太高,还是将就着用用10g口的vf吧
 楼主| 发表于 2024-11-18 16:12 | 显示全部楼层
zyyuyu 发表于 2024-11-18 14:32
见过类似故障,光纤收发器故障干翻了傻瓜交换机,傻瓜交换机的灯一个一个灭,10秒后再整体亮,然后再一个一 ...

最糟心的是这个交换机它不根据端口状态闪灯,只要有连接就定时闪,一秒闪一回,我都没法从灯的外表观测出里面的状态,麻了
谢谢提供的思路,我先换线试试
 楼主| 发表于 2024-11-28 15:26 | 显示全部楼层
本帖最后由 xiaol1n7 于 2024-11-28 15:36 编辑

11.28日更新一下:

瘫痪的时候看了下ip,169.254,没有拿到地址,自己填静态的也没用,交换机瘫痪了
设备管理器正常,事件管理器除了断开网络的消息没什么特别的

dac线试了两条,都有点兼容问题,一个丢包一个不识别,打算换光模块试试

wireshark不太懂,看起来也没啥特别的异常

如果当前状态是瘫痪的情况下,重启电脑依然是瘫痪的,必须要手动插拔一次sfp线才可以恢复

重启比开机更容易触发问题,但是瘫痪的情况下关机再启动也可以恢复正常
发表于 2024-11-29 10:13 | 显示全部楼层
VF不能开超过一定的数量,这个可能是BIOS里面没开PCIe ARI Support的关系
我是EPYC的主板,从auto开成enable就可以了
不知道其他主板有没有地方改
发表于 2024-11-29 10:27 | 显示全部楼层
rx_78gp02a 发表于 2024-11-18 14:32
VF会占用地址空间,有的bios预留的地址不够。11代之前的平台(包括E3)缺少ACS等支持,会导致SRIOV异常, ...

大佬,咨询一下。
客户端是NUC9-9300H+CX4421A
服务器 网卡是 CX542B,256g内存,UNRAID系统,8块NVME ,4个盘raidz1两组组条带.原本2683 V4。可以跑硬盘速度1.6g~2.2g。所有配置完全不变,把2683 V4换成了7352 ,速度跌到了1.2~1.4g。
7352无论单核多核都比2683v4高。
大佬,这个您觉得是兼容问题还是配置问题呢?
发表于 2024-11-29 10:35 | 显示全部楼层
rx_78gp02a 发表于 2024-11-18 14:32
VF会占用地址空间,有的bios预留的地址不够。11代之前的平台(包括E3)缺少ACS等支持,会导致SRIOV异常, ...

还有个网卡问题。我在2683 V4上查了一块CX542B,一块华为SP580 4口25g网卡。CX542B作为宿主机的网卡,华为SP580直通给OPENEULER,配置OVS。然后宿主机通过CX542B一端连接SP580一段连接交换机让SP580联网,客户端也链接SP580。
这时候,客户端->SP580->CX542B->交换机进而访问网络,客户端同时可以联络CX542B宿主机上的DOCKER(DOCKER统一用unraid系统的桥接BR0),但是唯独不能访问UNRAID。。似乎CX542B把自己的PF卡给隔离出去了。。。
我在用CX542B的VF卡的时候也有这个问题。我手上这块CX542B的VF卡和PF卡不能联通。X交换机以后,VF和PF的宿主机不能互相挂载SMB。。但是同一网络的其他设备可以同时访问这俩。。。
发表于 2024-11-29 10:37 | 显示全部楼层
wangfenghun 发表于 2024-11-29 10:27
大佬,咨询一下。
客户端是NUC9-9300H+CX4421A
服务器 网卡是 CX542B,256g内存,UNRAID系统,8块NVME , ...

E5-2697A V4和W2150B在性能上(跑分)差不多,但是测试路由转发E5-2697A可以到19.29Mpps,W2150B只能到7.93Mpps。
可能IO的性能和架构、总线有关,和IPC无直接关系。
发表于 2024-11-29 10:48 | 显示全部楼层
wangfenghun 发表于 2024-11-29 10:35
还有个网卡问题。我在2683 V4上查了一块CX542B,一块华为SP580 4口25g网卡。CX542B作为宿主机的网卡,华 ...

是有这个问题,PF和VF无法直接通信,所以我用一个千兆口作为管理口,PF不使用,虚拟机全部用VF。这个现象好像是MAC地址学习的问题,网上应该有教程。
发表于 2024-11-29 10:52 | 显示全部楼层
我刚把这个网卡扔了,换了一张710 DA2
发表于 2024-11-30 02:12 来自手机 | 显示全部楼层
同4121Axact刷25G。交换机我用的水星带管理的交换机,完全无问题,即插即用。至于sriov,我想骂人,这纯纯是麦洛斯和主板的兼容性问题。我体现在pve环境下开sriov,第一个网口不管模拟几个vf,网卡列表里面都是新增5个vf。而靠近pci的那个网口,会开不出vf,显示io错误。我一块华硕主板,一块华擎主板,都这个问题。换到丐帮帮主的主板,点毛病没有,全部vf正常开启。网上一查,隔壁叛国嘉也有这问题。也是一个网卡vf受限,另一个io错误。讲道理跑个10G也用不上rdna,隔壁弱鸡牙膏厂网卡就没这些毛病。
发表于 2024-11-30 05:19 | 显示全部楼层
好像c246不支持sriov吧,这卡在c612上没发生过问题
 楼主| 发表于 2024-12-1 17:06 | 显示全部楼层
albaney7 发表于 2024-11-30 02:12
同4121Axact刷25G。交换机我用的水星带管理的交换机,完全无问题,即插即用。至于sriov,我想骂人,这纯纯 ...

跟我的一样,这是我当时的记录的东西:

两个网口加起来不能超过5个vf,超过的话只有远离金手指的口生效,可以开七个还是八个来着,靠近金手指的口echo i/o error
开出来也不能用,一加就无法开机,提示pcie设备找不到,lspci里sriov的设备直接消失

pch下的intel网卡就没问题,应该就是前文里老哥说的十一代以前cpu通道缺少acs支持吧
 楼主| 发表于 2024-12-15 21:31 | 显示全部楼层
更新一下进展,磊科的gs10兼容性不是一般的差。换了三次dac,intel的sfp+dac丢包、mellanox的sfp+不识别、安费诺的sfp28间歇性断开,两次光模块,卖家发了两次,一次拉环坏的,一次里面一只坏的,第三次才终于连上
以前用aoc的时候也有不识别的现象,没dac这么烂

故障依旧,刚换上光模块的时候故障变化了一次,重启以后单纯的本地没网,连在交换机上的路由器没问题,再重启了一次故障又回去了,重启(大概率)或者开机(小概率)会瘫痪整个交换机,下一步看看网卡了,4121和542都比年中的时候小涨了一点
发表于 2024-12-15 23:23 | 显示全部楼层
我觉得你重换个傻瓜交换机可能就解决问题了
 楼主| 发表于 2024-12-18 21:12 | 显示全部楼层
brucelee1126 发表于 2024-12-15 23:23
我觉得你重换个傻瓜交换机可能就解决问题了

是准备换了,先换一次网卡吧
今天又换了一次国产dac线,轻微丢包
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2024-12-22 17:27 , Processed in 0.013897 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表