找回密码
 加入我们
搜索
      
查看: 3576|回复: 17

[显卡] 5090们的卡间通信

[复制链接]
发表于 2025-1-26 02:14 | 显示全部楼层 |阅读模式
5090作为第一个用pcie 5.0的NVIDIA显卡,多卡运算速度会因为换了5.0速度翻倍而带来训练/推理上的实质性的提升吗,好像全网还没有人测试...如果提升非常明显,那8卡10卡的5090感觉提升会很可观?
发表于 2025-1-26 02:27 | 显示全部楼层
说了 不支持多卡
 楼主| 发表于 2025-1-26 02:37 | 显示全部楼层

只看到90d不支持多卡,90也不支持吗
发表于 2025-1-26 04:51 | 显示全部楼层
200%会快,但快200%几乎不可能。但仍然是让人兴奋的提升。

1. 首先现代的深度学习框架利用3d并行已经抵消了一部分带宽上的瓶颈。
2. gpudirect所使用的dma引擎或pcie控制器可能有数据交叉能力没有同步提升的问题。如果使用cpu交换那cpu也可能是瓶颈。
3. 默认状态下,GPU的显存带宽提升没有达到200%。当前是1800/1000,不过小超一下或许可以解决这个问题。
发表于 2025-1-26 10:18 来自手机 | 显示全部楼层
真有用的是显存速度翻倍了,PCIE的速度影响目前,实际就见过8K非编的编解码
发表于 2025-1-26 10:39 来自手机 | 显示全部楼层
5090不支持gpu direct。就算single root pcie还是慢。我试过,8卡b200比8卡4090快5倍
发表于 2025-1-26 11:24 | 显示全部楼层
需求卡间通信的基本也都转去IB或者ROCE了吧
发表于 2025-1-26 11:42 来自手机 | 显示全部楼层
老黄应该锁死游戏卡的多卡了
发表于 2025-1-26 11:44 | 显示全部楼层
我輩樹である 发表于 2025-1-26 04:51
200%会快,但快200%几乎不可能。但仍然是让人兴奋的提升。

1. 首先现代的深度学习框架利用3d并行已经抵消 ...

话说40系的时候NV可是想把GeForce全系的P2P都关了(不过tinygrad的mod版驱动又弥补了这一部分),在50系难道不会彻底封死吗
发表于 2025-1-26 11:46 | 显示全部楼层
enuma0 发表于 2025-1-26 11:42
老黄应该锁死游戏卡的多卡了

现在还没看到跑原版多卡的 原版也锁就乐了
发表于 2025-1-26 11:59 来自手机 | 显示全部楼层
ZRY_98 发表于 2025-1-26 11:44
话说40系的时候NV可是想把GeForce全系的P2P都关了(不过tinygrad的mod版驱动又弥补了这一部分),在50系 ...

盲点!
发表于 2025-1-26 13:03 来自手机 | 显示全部楼层
fighte97 发表于 2025-1-26 11:46
现在还没看到跑原版多卡的 原版也锁就乐了

很有可能锁死了,不能影响AI卡的销量啊
发表于 2025-1-26 13:14 来自手机 | 显示全部楼层
ZRY_98 发表于 2025-1-26 11:44
话说40系的时候NV可是想把GeForce全系的P2P都关了(不过tinygrad的mod版驱动又弥补了这一部分),在50系 ...

我用过这个mod版驱动,双向带宽接近翻倍,但系统一升级内核就得再重新弄一下
发表于 2025-1-27 05:36 | 显示全部楼层
我輩樹である 发表于 2025-1-26 04:51
200%会快,但快200%几乎不可能。但仍然是让人兴奋的提升。

1. 首先现代的深度学习框架利用3d并行已经抵消 ...

树导准备用什么主板啊?

要是能两台MATX,通过雷电5互联就好了……类似M4 Mac Mini 堆叠

带宽都是不够用
发表于 2025-1-27 12:42 | 显示全部楼层
Miner 发表于 2025-1-27 05:36
树导准备用什么主板啊?

要是能两台MATX,通过雷电5互联就好了……类似M4 Mac Mini 堆叠

搞一张5090fe装itx,主要是打游戏。搞两张连着意义不大,实验室里我还是用国产和4090多卡吧。

自己玩玩我已经是苹果党了,现在关注的是m4 ultra。推特上看到有人用2台m2 ultra跑672b的deepseek q3,用雷雳网桥连着,可以跑15t+,单台m2ultra跑238B也可以到25t。
发表于 2025-1-27 12:44 | 显示全部楼层
我輩樹である 发表于 2025-1-27 12:42
搞一张5090fe装itx,主要是打游戏。搞两张连着意义不大,实验室里我还是用国产和4090多卡吧。

自己玩玩 ...

单线程15t也就只能尝尝鲜,实际用不了啊
发表于 2025-1-27 12:46 | 显示全部楼层
neavo 发表于 2025-1-27 12:44
单线程15t也就只能尝尝鲜,实际用不了啊

很多地方也需要单线程的,肯定不是拿去提供服务了。
发表于 2025-1-27 13:13 | 显示全部楼层
本帖最后由 Miner 于 2025-1-27 15:40 编辑
我輩樹である 发表于 2025-1-27 12:42
搞一张5090fe装itx,主要是打游戏。搞两张连着意义不大,实验室里我还是用国产和4090多卡吧。

自己玩玩 ...


Apple 和 NV 历来关系不好,不用 CUDA 也是难搞;M4 Ultra 如果能利用 NPU 就好了,MLX 还是雷声大雨点小,浪费那么大带宽和大容量统一内存
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-2-10 08:06 , Processed in 0.010568 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表