yjcxlsq 发表于 2025-3-26 19:57

RTX 5090 D与RTX 5090的AI性能对比测试

原文链接:https://github.com/nehemiah888/rtx5090aitest?tab=readme-ov-file

省流:作者通过与Computer Vision Lab提供的5090 AI测试结果进行对比,结果显示:
在非LLM模型方面,无论是训练还是推理,5090和5090d在大部分模型的性能表现上区别不大,5090d比5090平均慢了百分之-17.2到11.4之间[偷笑]
但是在FP32精度上,对于Swin Base Patch4 Window7 224这个模型,5090d比5090在训练上慢了百分之41.9,在推理上慢了百分之63.3,明显低于4090
在LLM模型的推理上,两者性能的差异似乎与模型大小有关,在32b等较大模型上,两者只有个位数差距,但是在3-8b的小模型上,5090d比5090慢了百分之13到18

作者也提供了测试用的脚本和依赖环境,感兴趣的朋友可以自己复现[偷笑]

我奇怪的是为什么只有一个模型的一个特定精度(还是很少使用的FP32)有如此显著的区别,并且即使是有普遍差异的小参数LLM,5090d还是比4090快得多
感觉禁令禁了个寂寞[偷笑]

williamqh 发表于 2025-3-26 20:07

Swin Transformer是个挺重要的模型, 那是不是基于Transformer的模型都做了限制, 那差距还是很大的.

manwomans 发表于 2025-3-26 20:08

fp32精度的模型个人用户基本用不到
不过既然性能对比出来了
感觉高价买阉割版还是有点冤大头了

StevenG 发表于 2025-3-26 20:08

你要相信,这个世界是个巨大的草台班子,nv随便跑跑测试,打发了国会老爷,那些老爷们,哪里分得清什么是7B,什么是32B,哪些测试是传统ai,哪些是大模型[偷笑],禁售文件只写了算力要求,老黄只要满足,就OK[偷笑]

gsy111 发表于 2025-3-26 20:25

所以就是5090D还是有阉割的,但是还是强于4090?

lh4357 发表于 2025-3-26 20:31

本帖最后由 lh4357 于 2025-3-26 20:35 编辑

FP32不是纯CUDA么?
Tensor core都用不到,咋锁?

除非你的参数里有fp16 bf16混合精度。

我发现FP32+FP16混合精度训练确实比4090还慢。
但如果纯FP16、纯BF16又恢复了满速(比4090快20%左右),很难不觉得是软件BUG。

williamqh 发表于 2025-3-26 20:34

本帖最后由 williamqh 于 2025-3-26 20:36 编辑

gsy111 发表于 2025-3-26 20:25
所以就是5090D还是有阉割的,但是还是强于4090?

某些模型训练弱于4090

鬼武人 发表于 2025-3-26 20:43

过卦年

加限定条件,做成ppt,轻松忽悠喊打喊杀的红脖子[偷笑]过关!

a010301208 发表于 2025-3-26 21:05

50系显卡在相同算力下比40系快,5080实测没比4090算力纸面数据慢那么多[偷笑],现在就等5090能有渠道买了,90D还是有点差距的

GZJerry 发表于 2025-3-26 21:10

williamqh 发表于 2025-3-26 20:34
某些模型训练弱于4090

现在收4090的厂家主要训练的模型呢?5090D有优势不?

menuu 发表于 2025-3-26 21:15

GZJerry 发表于 2025-3-26 21:10
现在收4090的厂家主要训练的模型呢?5090D有优势不?

人家更在意的是显存比5090大

williamqh 发表于 2025-3-26 21:22

GZJerry 发表于 2025-3-26 21:10
现在收4090的厂家主要训练的模型呢?5090D有优势不?

看主要训练什么模型了, 貌似fp16差距不大. 有优势.

robles 发表于 2025-3-28 16:41

平均弱了10%,还是得买非阉割版。

liushihao 发表于 2025-3-28 17:12

a010301208 发表于 2025-3-26 21:05
50系显卡在相同算力下比40系快,5080实测没比4090算力纸面数据慢那么多,现在就等5090能有渠道买了,90D还 ...

满血的90最近滑的很厉害, 已经杀到2.7左右的区间

manwomans 发表于 2025-3-28 17:13

liushihao 发表于 2025-3-28 17:12
满血的90最近滑的很厉害, 已经杀到2.7左右的区间

还是太贵
而且5090d貌似横盘好久了
90的价格就还是下不来

liushihao 发表于 2025-3-28 17:17

manwomans 发表于 2025-3-28 17:13
还是太贵
而且5090d貌似横盘好久了
90的价格就还是下不来

90D 进2.2, 最终会和49倒挂, 倒挂就是出手的时机。
满血的滑下来一样会对D产生打压, 快了, 再一个月就能进1.X
完全不需要急, 没什么游戏49玩不了。

raytranks 发表于 2025-3-28 17:18

StevenG 发表于 2025-3-26 20:08
你要相信,这个世界是个巨大的草台班子,nv随便跑跑测试,打发了国会老爷,那些老爷们,哪里分得清什么是7B ...

然后这个作者一通测试,国会老爷们全明白了。

晓古城 发表于 2025-3-28 17:41

国内花一样钱只能买太监版,NVIDIA F**K You

welsmann 发表于 2025-3-28 17:43

有FP8和FP4相关的比对么

bjvava 发表于 2025-3-28 18:00

擦,我刚想买个 5090d,然后把 4090 出了,那看来还是要满血 90

我爱我家2022 发表于 2025-3-28 19:05

跑DP的话差距大吗?[再见]

五年一装机 发表于 2025-3-28 19:17

终于有结论了,真不容易……

我輩樹である 发表于 2025-3-29 11:30

lh4357 发表于 2025-3-26 20:31
FP32不是纯CUDA么?
Tensor core都用不到,咋锁?



transformer engine锁了。虽然叫transformer engine但其实是混合精度,不是算子。而且这个te其实是cuda实现的,应该比较容易绕开。

墨镜难 发表于 2025-3-30 00:23

我实际测试过在我的应用场合两者是没有速度区别的
llama.cpp,基于qwen2.5训练的13b模型跑文字日译中,5090和5090D都是稳定126tokens左右,不过基于llama.cpp的bench确实差距很明显,一个是42,一个是29
我也不懂为什么bench和实际应用区别这么大,毕竟我只会使用不懂原理

manwomans 发表于 2025-3-30 00:43

墨镜难 发表于 2025-3-30 00:23
我实际测试过在我的应用场合两者是没有速度区别的
llama.cpp,基于qwen2.5训练的13b模型跑文字日译中,5090 ...

你这个只是在跑推理吧

墨镜难 发表于 2025-3-30 00:50

manwomans 发表于 2025-3-30 00:43
你这个只是在跑推理吧

那我觉得区区32G肯定也不够跑训练

manwomans 发表于 2025-3-30 00:55

墨镜难 发表于 2025-3-30 00:50
那我觉得区区32G肯定也不够跑训练

文生图模型做dreambooth训练够了

8xwob3ko 发表于 2025-3-30 04:03

墨镜难 发表于 2025-3-30 00:23
我实际测试过在我的应用场合两者是没有速度区别的
llama.cpp,基于qwen2.5训练的13b模型跑文字日译中,5090 ...

有分阶段测过吗,复杂场景瓶颈不一定在计算上

lh4357 发表于 2025-3-30 21:07

本帖最后由 lh4357 于 2025-3-30 21:09 编辑

我輩樹である 发表于 2025-3-29 11:30
transformer engine锁了。虽然叫transformer engine但其实是混合精度,不是算子。而且这个te其实是cuda实 ...

就是pytorch训练开fp32或tf32模式的时候参数"fp16_run": true会让一个epoch时间和4090差不多,但   "fp16_run": false同时"bf16_run": true速度正常(比4090快20%)。

"fp16_run": false的时候,half_type无论是啥,速度都正常。

总之它就和fp16_run杠上了。
页: [1]
查看完整版本: RTX 5090 D与RTX 5090的AI性能对比测试