5090们的卡间通信
5090作为第一个用pcie 5.0的NVIDIA显卡,多卡运算速度会因为换了5.0速度翻倍而带来训练/推理上的实质性的提升吗,好像全网还没有人测试...如果提升非常明显,那8卡10卡的5090感觉提升会很可观? 说了 不支持多卡 寒蝉鸣泣 发表于 2025-1-26 02:27说了 不支持多卡
只看到90d不支持多卡,90也不支持吗 200%会快,但快200%几乎不可能。但仍然是让人兴奋的提升。
1. 首先现代的深度学习框架利用3d并行已经抵消了一部分带宽上的瓶颈。
2. gpudirect所使用的dma引擎或pcie控制器可能有数据交叉能力没有同步提升的问题。如果使用cpu交换那cpu也可能是瓶颈。
3. 默认状态下,GPU的显存带宽提升没有达到200%。当前是1800/1000,不过小超一下或许可以解决这个问题。 真有用的是显存速度翻倍了,PCIE的速度影响目前,实际就见过8K非编的编解码[偷笑] 5090不支持gpu direct。就算single root pcie还是慢。我试过,8卡b200比8卡4090快5倍 需求卡间通信的基本也都转去IB或者ROCE了吧 老黄应该锁死游戏卡的多卡了 我輩樹である 发表于 2025-1-26 04:51
200%会快,但快200%几乎不可能。但仍然是让人兴奋的提升。
1. 首先现代的深度学习框架利用3d并行已经抵消 ...
话说40系的时候NV可是想把GeForce全系的P2P都关了(不过tinygrad的mod版驱动又弥补了这一部分),在50系难道不会彻底封死吗[无奈] enuma0 发表于 2025-1-26 11:42
老黄应该锁死游戏卡的多卡了
现在还没看到跑原版多卡的 原版也锁就乐了 ZRY_98 发表于 2025-1-26 11:44
话说40系的时候NV可是想把GeForce全系的P2P都关了(不过tinygrad的mod版驱动又弥补了这一部分),在50系 ...
盲点! fighte97 发表于 2025-1-26 11:46
现在还没看到跑原版多卡的 原版也锁就乐了
很有可能锁死了,不能影响AI卡的销量啊 ZRY_98 发表于 2025-1-26 11:44
话说40系的时候NV可是想把GeForce全系的P2P都关了(不过tinygrad的mod版驱动又弥补了这一部分),在50系 ...
我用过这个mod版驱动,双向带宽接近翻倍,但系统一升级内核就得再重新弄一下 我輩樹である 发表于 2025-1-26 04:51
200%会快,但快200%几乎不可能。但仍然是让人兴奋的提升。
1. 首先现代的深度学习框架利用3d并行已经抵消 ...
树导准备用什么主板啊?
要是能两台MATX,通过雷电5互联就好了……类似M4 Mac Mini 堆叠
带宽都是不够用 Miner 发表于 2025-1-27 05:36
树导准备用什么主板啊?
要是能两台MATX,通过雷电5互联就好了……类似M4 Mac Mini 堆叠
搞一张5090fe装itx,主要是打游戏。搞两张连着意义不大,实验室里我还是用国产和4090多卡吧。
自己玩玩我已经是苹果党了,现在关注的是m4 ultra。推特上看到有人用2台m2 ultra跑672b的deepseek q3,用雷雳网桥连着,可以跑15t+,单台m2ultra跑238B也可以到25t。 我輩樹である 发表于 2025-1-27 12:42
搞一张5090fe装itx,主要是打游戏。搞两张连着意义不大,实验室里我还是用国产和4090多卡吧。
自己玩玩 ...
[生病] 单线程15t也就只能尝尝鲜,实际用不了啊 neavo 发表于 2025-1-27 12:44
单线程15t也就只能尝尝鲜,实际用不了啊
很多地方也需要单线程的,肯定不是拿去提供服务了。 本帖最后由 Miner 于 2025-1-27 15:40 编辑
我輩樹である 发表于 2025-1-27 12:42
搞一张5090fe装itx,主要是打游戏。搞两张连着意义不大,实验室里我还是用国产和4090多卡吧。
自己玩玩 ...
Apple 和 NV 历来关系不好,不用 CUDA 也是难搞;M4 Ultra 如果能利用 NPU 就好了,MLX 还是雷声大雨点小,浪费那么大带宽和大容量统一内存 超出知识范围了~ 游戏卡不配的
页:
[1]