LNT 发表于 2025-1-26 02:14

5090们的卡间通信

5090作为第一个用pcie 5.0的NVIDIA显卡,多卡运算速度会因为换了5.0速度翻倍而带来训练/推理上的实质性的提升吗,好像全网还没有人测试...如果提升非常明显,那8卡10卡的5090感觉提升会很可观?

寒蝉鸣泣 发表于 2025-1-26 02:27

说了 不支持多卡

LNT 发表于 2025-1-26 02:37

寒蝉鸣泣 发表于 2025-1-26 02:27
说了 不支持多卡

只看到90d不支持多卡,90也不支持吗

我輩樹である 发表于 2025-1-26 04:51

200%会快,但快200%几乎不可能。但仍然是让人兴奋的提升。

1. 首先现代的深度学习框架利用3d并行已经抵消了一部分带宽上的瓶颈。
2. gpudirect所使用的dma引擎或pcie控制器可能有数据交叉能力没有同步提升的问题。如果使用cpu交换那cpu也可能是瓶颈。
3. 默认状态下,GPU的显存带宽提升没有达到200%。当前是1800/1000,不过小超一下或许可以解决这个问题。

gladiator 发表于 2025-1-26 10:18

真有用的是显存速度翻倍了,PCIE的速度影响目前,实际就见过8K非编的编解码[偷笑]

一日 发表于 2025-1-26 10:39

5090不支持gpu direct。就算single root pcie还是慢。我试过,8卡b200比8卡4090快5倍

星空小琛 发表于 2025-1-26 11:24

需求卡间通信的基本也都转去IB或者ROCE了吧

enuma0 发表于 2025-1-26 11:42

老黄应该锁死游戏卡的多卡了

ZRY_98 发表于 2025-1-26 11:44

我輩樹である 发表于 2025-1-26 04:51
200%会快,但快200%几乎不可能。但仍然是让人兴奋的提升。

1. 首先现代的深度学习框架利用3d并行已经抵消 ...

话说40系的时候NV可是想把GeForce全系的P2P都关了(不过tinygrad的mod版驱动又弥补了这一部分),在50系难道不会彻底封死吗[无奈]

fighte97 发表于 2025-1-26 11:46

enuma0 发表于 2025-1-26 11:42
老黄应该锁死游戏卡的多卡了

现在还没看到跑原版多卡的 原版也锁就乐了

我輩樹である 发表于 2025-1-26 11:59

ZRY_98 发表于 2025-1-26 11:44
话说40系的时候NV可是想把GeForce全系的P2P都关了(不过tinygrad的mod版驱动又弥补了这一部分),在50系 ...

盲点!

enuma0 发表于 2025-1-26 13:03

fighte97 发表于 2025-1-26 11:46
现在还没看到跑原版多卡的 原版也锁就乐了

很有可能锁死了,不能影响AI卡的销量啊

purityWang 发表于 2025-1-26 13:14

ZRY_98 发表于 2025-1-26 11:44
话说40系的时候NV可是想把GeForce全系的P2P都关了(不过tinygrad的mod版驱动又弥补了这一部分),在50系 ...

我用过这个mod版驱动,双向带宽接近翻倍,但系统一升级内核就得再重新弄一下

Miner 发表于 2025-1-27 05:36

我輩樹である 发表于 2025-1-26 04:51
200%会快,但快200%几乎不可能。但仍然是让人兴奋的提升。

1. 首先现代的深度学习框架利用3d并行已经抵消 ...

树导准备用什么主板啊?

要是能两台MATX,通过雷电5互联就好了……类似M4 Mac Mini 堆叠

带宽都是不够用

我輩樹である 发表于 2025-1-27 12:42

Miner 发表于 2025-1-27 05:36
树导准备用什么主板啊?

要是能两台MATX,通过雷电5互联就好了……类似M4 Mac Mini 堆叠


搞一张5090fe装itx,主要是打游戏。搞两张连着意义不大,实验室里我还是用国产和4090多卡吧。

自己玩玩我已经是苹果党了,现在关注的是m4 ultra。推特上看到有人用2台m2 ultra跑672b的deepseek q3,用雷雳网桥连着,可以跑15t+,单台m2ultra跑238B也可以到25t。

neavo 发表于 2025-1-27 12:44

我輩樹である 发表于 2025-1-27 12:42
搞一张5090fe装itx,主要是打游戏。搞两张连着意义不大,实验室里我还是用国产和4090多卡吧。

自己玩玩 ...

[生病] 单线程15t也就只能尝尝鲜,实际用不了啊

我輩樹である 发表于 2025-1-27 12:46

neavo 发表于 2025-1-27 12:44
单线程15t也就只能尝尝鲜,实际用不了啊

很多地方也需要单线程的,肯定不是拿去提供服务了。

Miner 发表于 2025-1-27 13:13

本帖最后由 Miner 于 2025-1-27 15:40 编辑

我輩樹である 发表于 2025-1-27 12:42
搞一张5090fe装itx,主要是打游戏。搞两张连着意义不大,实验室里我还是用国产和4090多卡吧。

自己玩玩 ...

Apple 和 NV 历来关系不好,不用 CUDA 也是难搞;M4 Ultra 如果能利用 NPU 就好了,MLX 还是雷声大雨点小,浪费那么大带宽和大容量统一内存

sea 发表于 2025-2-12 16:27

超出知识范围了~

VariedValiance 发表于 2025-2-12 16:30

游戏卡不配的
页: [1]
查看完整版本: 5090们的卡间通信