mkdirmushroom 发表于 2025-4-16 00:34

5090和5090D的AI性能还是有区别的

本帖最后由 mkdirmushroom 于 2025-4-16 00:51 编辑

我和B站的莫布兰大佬在相同的环境 (Ubuntu 24.04, CUDA 12.8) 下,使用 mmapeak 这个专门用于测量GPU矩阵乘法累加(MMA)峰值性能的开源基准测试工具进行了对比(更多对比可参考底下sahalaka大佬的nga帖子链接)。

如图一、图二所示,在混合精度和FP8的部分测试中,5090相比5090D,算力提升了 70%以上。这表明在特定的矩阵运算场景下,5090对比5090D的性能有显著提升。

即使如此,个人还是不推荐国内用户购买5090(保修问题),即使是AI从业者。因为绝大部分情况下,它们之间在实际应用中可能没有明显区别,尤其是在行业内普遍使用的全精度(FP32)和半精度(FP16)方面,两款显卡的性能表现相当。至于游戏和其他专业领域的性能,基本也是一样的。

基准测试工具:https://github.com/ReinForce-II/mmapeak

感谢B站莫布兰大佬的FP32和FP16对比测试:https://www.bilibili.com/video/BV1JidsYDE2L

感谢nga论坛sahalaka大佬收集整理的测试结果,具体见:https://bbs.nga.cn/read.php?tid=43826072



lh4357 发表于 2025-4-16 00:39

不过这个仔细想想也挺奇怪,为啥能差这么多?

有区别的那些,只有60%的性能,还砍多了?

mkdirmushroom 发表于 2025-4-16 00:59

lh4357 发表于 2025-4-16 00:39
不过这个仔细想想也挺奇怪,为啥能差这么多?

有区别的那些,只有60%的性能,还砍多了? ...

是的,有待考证,不排除测试代码bug

rSkip 发表于 2025-4-16 01:11

这测的mma性能,和实际ai性能不是同一个东西。

mkdirmushroom 发表于 2025-4-16 09:38

rSkip 发表于 2025-4-16 01:11
这测的mma性能,和实际ai性能不是同一个东西。

额,这个就是在测试Tensor Core在频繁操作下不同精度下的吞吐量,这不就是和AI工作正相关嘛
页: [1]
查看完整版本: 5090和5090D的AI性能还是有区别的