找回密码
 加入我们
搜索
      
查看: 4802|回复: 2

[装机] 超迷你集群搭建填坑

[复制链接]
发表于 2023-2-8 11:09 | 显示全部楼层 |阅读模式
本帖最后由 Xp47 于 2023-5-8 01:18 编辑

背景:
只有三台机器(centos8.3, epyc 7003),没有购买IB交换机(因为超了预算)。一台主节点,两台计算节点。主节点双口56/40G IB卡, 两台计算节点单口56/40G IB卡。计算节点为保证效率关闭了虚拟化,SMT这些。

问题1:
原本IB只想用来做beegfs的存储共享,现在希望能两台计算节点可以实现跨节点运算时候使用IB进行rdma,且不增加IB交换机(买不起)。
现在的情况是使用eth_IPoIB模式,在主节点建立nat,但IB卡网速降为10G,且intelmpi的dapl会偶尔出错效率很低。目前只能想到再买两张二手IB卡 把两个计算节点也连起来,然后恢复IPoIB 56/40G模式。但是这样要继续买卡还有线。现在想请教大佬们,能不能直接在主节点通过sm建立IB网桥。(这样以后扩展第三个计算节点可以少花不少钱。。。

==========================================
土办法:
两张IB买来无法打驱动,看了下,试了下更新了fw,重启好用了。
更新帖子的目的是为了留下记录,两张卡如果有一个一直init....记得opensm --daemon -g xxxx ,xxxx可以从ibstat -p获得
总之目前就这样吧.....

简单测试:
系统降到了Centos7 用beegfs v7.2.8,结合ssd做meta,计算节点挂载硬盘写入速度大概大文件连续写入800MB/s,小文件随机3.2GB/s,节点间并行OK.....回头再买根IB线看看做bond;
另外发现屏蔽牌主板给的是两个10G的电口,下面在主节点搞一个x544....看看行不行

==========================================

15th Feb. 更新:
使用双口hp544更换掉intel的ib卡,nmtui使用两个ib口创建bond(记得设置优先ib)。测试后节点间并行效率高于北京云(那是肯定的...)
8th May 更新:
增加了三块544+,发现会出现IB强制识别为Eth的情况,更新fw后无效果,网上搜索后发现有人说某些卡就只支持Eth。于是,买了一批新的。但是下了单之后,随手翻了翻hpe的驱动下载列表,发现了一个vpi-eth-ib的补丁....安装后修复。

==========================================

问题2:
发现新的问题,单节点128核心速度不如单节点64核心速度,双节点128核心速度三倍于单节点64.... (目前还在找单节点间128核心好慢好慢的原因

==========================================
记录:
屏蔽牌主板一颗cpu供电啸叫。。。诡异的是随着计算负载的变化声音会出现消失。。。
 楼主| 发表于 2023-2-11 12:31 | 显示全部楼层

node1

node1


node2

node2


mgmt

mgmt



这样OK是OK,但是已经无法扩展了,哎
 楼主| 发表于 2023-2-12 13:27 | 显示全部楼层
之所以降级到centos 7,是因为在使用intel2017,2018,2019时,遇到了strtok的问题....大家遇到类似问题可以访问redhat官方解决方法(然鹅就算需要打补丁,但是2017依然是最快的
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-1-31 12:48 , Processed in 0.008840 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表