5090们的卡间通信

LNT 发表于 2025-1-26 02:14

5090作为第一个用pcie 5.0的NVIDIA显卡，多卡运算速度会因为换了5.0速度翻倍而带来训练/推理上的实质性的提升吗，好像全网还没有人测试...如果提升非常明显，那8卡10卡的5090感觉提升会很可观？

寒蝉鸣泣 发表于 2025-1-26 02:27

说了不支持多卡

LNT 发表于 2025-1-26 02:37

寒蝉鸣泣发表于 2025-1-26 02:27
说了不支持多卡

只看到90d不支持多卡，90也不支持吗

我輩樹である 发表于 2025-1-26 04:51

200%会快，但快200%几乎不可能。但仍然是让人兴奋的提升。

1. 首先现代的深度学习框架利用3d并行已经抵消了一部分带宽上的瓶颈。
2. gpudirect所使用的dma引擎或pcie控制器可能有数据交叉能力没有同步提升的问题。如果使用cpu交换那cpu也可能是瓶颈。
3. 默认状态下，GPU的显存带宽提升没有达到200%。当前是1800/1000，不过小超一下或许可以解决这个问题。

gladiator 发表于 2025-1-26 10:18

真有用的是显存速度翻倍了，PCIE的速度影响目前，实际就见过8K非编的编解码[偷笑]

一日发表于 2025-1-26 10:39

5090不支持gpu direct。就算single root pcie还是慢。我试过，8卡b200比8卡4090快5倍

星空小琛 发表于 2025-1-26 11:24

需求卡间通信的基本也都转去IB或者ROCE了吧

enuma0 发表于 2025-1-26 11:42

老黄应该锁死游戏卡的多卡了

ZRY_98 发表于 2025-1-26 11:44

我輩樹である发表于 2025-1-26 04:51
200%会快，但快200%几乎不可能。但仍然是让人兴奋的提升。

1. 首先现代的深度学习框架利用3d并行已经抵消 ...

话说40系的时候NV可是想把GeForce全系的P2P都关了（不过tinygrad的mod版驱动又弥补了这一部分），在50系难道不会彻底封死吗[无奈]

fighte97 发表于 2025-1-26 11:46

enuma0 发表于 2025-1-26 11:42
老黄应该锁死游戏卡的多卡了

现在还没看到跑原版多卡的原版也锁就乐了

我輩樹である 发表于 2025-1-26 11:59

ZRY_98 发表于 2025-1-26 11:44
话说40系的时候NV可是想把GeForce全系的P2P都关了（不过tinygrad的mod版驱动又弥补了这一部分），在50系 ...

盲点！

enuma0 发表于 2025-1-26 13:03

fighte97 发表于 2025-1-26 11:46
现在还没看到跑原版多卡的原版也锁就乐了

很有可能锁死了，不能影响AI卡的销量啊

purityWang 发表于 2025-1-26 13:14

ZRY_98 发表于 2025-1-26 11:44
话说40系的时候NV可是想把GeForce全系的P2P都关了（不过tinygrad的mod版驱动又弥补了这一部分），在50系 ...

我用过这个mod版驱动，双向带宽接近翻倍，但系统一升级内核就得再重新弄一下

Miner 发表于 2025-1-27 05:36

我輩樹である发表于 2025-1-26 04:51
200%会快，但快200%几乎不可能。但仍然是让人兴奋的提升。

1. 首先现代的深度学习框架利用3d并行已经抵消 ...

树导准备用什么主板啊？

要是能两台MATX，通过雷电5互联就好了……类似M4 Mac Mini 堆叠

带宽都是不够用

我輩樹である 发表于 2025-1-27 12:42

Miner 发表于 2025-1-27 05:36
树导准备用什么主板啊？

要是能两台MATX，通过雷电5互联就好了……类似M4 Mac Mini 堆叠

搞一张5090fe装itx，主要是打游戏。搞两张连着意义不大，实验室里我还是用国产和4090多卡吧。

自己玩玩我已经是苹果党了，现在关注的是m4 ultra。推特上看到有人用2台m2 ultra跑672b的deepseek q3，用雷雳网桥连着，可以跑15t+，单台m2ultra跑238B也可以到25t。

neavo 发表于 2025-1-27 12:44

我輩樹である发表于 2025-1-27 12:42
搞一张5090fe装itx，主要是打游戏。搞两张连着意义不大，实验室里我还是用国产和4090多卡吧。

自己玩玩 ...

[生病] 单线程15t也就只能尝尝鲜，实际用不了啊

我輩樹である 发表于 2025-1-27 12:46

neavo 发表于 2025-1-27 12:44
单线程15t也就只能尝尝鲜，实际用不了啊

很多地方也需要单线程的，肯定不是拿去提供服务了。

Miner 发表于 2025-1-27 13:13

本帖最后由 Miner 于 2025-1-27 15:40 编辑

我輩樹である发表于 2025-1-27 12:42
搞一张5090fe装itx，主要是打游戏。搞两张连着意义不大，实验室里我还是用国产和4090多卡吧。

自己玩玩 ...

Apple 和 NV 历来关系不好，不用 CUDA 也是难搞；M4 Ultra 如果能利用 NPU 就好了，MLX 还是雷声大雨点小，浪费那么大带宽和大容量统一内存

sea 发表于 2025-2-12 16:27

超出知识范围了~

VariedValiance 发表于 2025-2-12 16:30

游戏卡不配的

页: [1]

Chiphell - 分享与交流用户体验's Archiver

5090们的卡间通信