T.JOHN 发表于 2025-2-6 09:21

检查算力限制条件,理论上5090D至少没割推理算力

本帖最后由 T.JOHN 于 2025-2-6 21:52 编辑

2/6/25 21:50更新&纠错
我重新看了下blackwell白皮书,按4090D阉割的逻辑,二楼说了对,我之前主帖是错误的。4090的FP8的密度算力是660。那么算力阉割看密度算力,不看稀疏算力,下面写的都是废话。

5090D的flux nf4极客湾测过了,和5090性能一样的,远快于4090,也不存在软件没适配好的问题,因为nv发布会上show的就是flux。即便是看密度算力,1676*4=6704,早就超了4800了。

但我们也不能说老黄限制的是实际算力,因为实际算力依赖环境,总是和理论标称是有差距的。去年底有个做ai benchmark做了苏妈专访的,他专门测了mi300和h100实际/理论算力比,h100情况要比mi300好很多。老黄只能割理论算力,这样美国出口管理才好认定。

总之极客湾云飞说了对,5090D这个“D”了有点迷

至于推理,还是和训练有点区别的。比如你没有nvlink,推理用pcie4.0x8+pcie4.0x4/x8会慢上40%,最终结果可能还是要请人测一下




美出口限制为4800TPP。以4090为例,fp16是的稀疏算力是330t,tpp=330x16=5280略超4800,老黄就刀了10%变成4090D。
但实际上这是稀疏算力,也就是党权重为0时,线性代数有大量0的值,此时n卡可以快速处理,是正常密度算力的两倍。而真实算力也就1/2,即165t。

触发稀疏算力有以下几条件
1.清洗过的模型。
怎么清洗参考 tensorflow官网,https://www.tensorflow.org/model_optimization/guide/pruning/pruning_with_sparsity_2_by_4
2.支持的cuda库cusparelt或使用trt
3.使用优化的后端,比如trt-lllm能让稀疏计算使用率可以达到50-70%,vllm只有20-40%
目前llm的后端引擎有两位数了,每个在github上少则几千多则几万的star,效率各不相同。n卡最好用trt-llm+triton server测
benchmark参考:https://www.bentoml.com/blog/benchmarking-llm-inference-backends
4.使用30系显卡以后显卡,之前20系有tensor core也不支持,更别提没tensor core的卡

注:5090的真实tpp就3360,达不到限制的4800,无需阉割。4800当时都是对着a100标的

PolyMorph 发表于 2025-2-6 09:22

4090 fp16稀疏算力是660

T.JOHN 发表于 2025-2-6 09:25

660x8和330x16有区别?玩文字游戏有意思?

ainomelody 发表于 2025-2-6 09:44

如果真是这样的话出d的意义在哪啊

momoka 发表于 2025-2-6 09:45

不懂,就说普通用户单卡,用生产力软件渲染,和用大路算涩图软件算图,是不是都毫无影响,囧。

welsmann 发表于 2025-2-6 09:48

推理的工作负载太低了,还是看训练和微调。只要哪天github上出个50系支持的训练脚本就可以看看dog版的真实面目了……到时候什么nccl啊都一起上看看是不是真的在河里罗勇

spikeout506 发表于 2025-2-6 09:51

5090D显卡跑AI效果可以看一下这个视频:BV1aNPBeZE5d

q3again0605 发表于 2025-2-6 09:56

明白了,还有个问题,多卡互联的问题,3090ti后就不支持nvlink,2080ti开始不支持p2p,3090,90ti,4090还有large bar可以用开源内核打开p2p的限制,5090, 90D large bar是否还在,如果还在的话pcie5.0的p2p也是不错的。

T.JOHN 发表于 2025-2-6 09:56

welsmann 发表于 2025-2-6 09:48
推理的工作负载太低了,还是看训练和微调。只要哪天github上出个50系支持的训练脚本就可以看看dog版的真实 ...

首先推理工作负载不低,打满tgp没问题。其次推理和训练对gpu来说没区别,它不过是执行逻辑计算罢了。训练中能用到稀疏计算的训练有最近很流行的moe

T.JOHN 发表于 2025-2-6 10:04

q3again0605 发表于 2025-2-6 09:56
明白了,还有个问题,多卡互联的问题,3090ti后就不支持nvlink,2080ti开始不支持p2p,3090,90ti,4090还有 ...

多卡互联分有两个问题,问题1. 把模型塞到不同显卡的显存中,lamma.cpp就能做到,塞到内存中都没问题,无非就是降速罢了。 问题2. 多卡训练/推理速度成倍增长,a100/h100肯定可以,消费级不清楚老黄阉割程度,ollama不提升多卡性能。没找到其他后端多卡性能测试

T.JOHN 发表于 2025-2-6 10:06

spikeout506 发表于 2025-2-6 09:51
5090D显卡跑AI效果可以看一下这个视频:BV1aNPBeZE5d

这个up主是小白,这视频是浪费生命,blackwell很多框架正在适配中,目前跑不了正常

T.JOHN 发表于 2025-2-6 10:12

momoka 发表于 2025-2-6 09:45
不懂,就说普通用户单卡,用生产力软件渲染,和用大路算涩图软件算图,是不是都毫无影响,囧。 ...

传统生产力没影响,sd对于开箱即用的用户没啥影响。对于手动改工作流和后端的人有一定影响,但得对部署和调模型足够专业才行

momoka 发表于 2025-2-6 10:14

T.JOHN 发表于 2025-2-6 10:12
传统生产力没影响,sd对于开箱即用的用户没啥影响。对于手动改工作流和后端的人有一定影响,但得对部署和 ...

比如SD这种大路软件,有和4090或者5090的对比的实测么`0`0`0`0

welsmann 发表于 2025-2-6 10:17

本帖最后由 welsmann 于 2025-2-6 10:19 编辑

T.JOHN 发表于 2025-2-6 09:56
首先推理工作负载不低,打满tgp没问题。其次推理和训练对gpu来说没区别,它不过是执行逻辑计算罢了。训练 ...


但训练还是要测,光推理不训练没法证明算力未阉割

要是有个50系支持的moe微调脚本就可以用90d一试了,可惜现在好像还看不到。

还有就是类似于sd3.5 large 和flux1的50系lora适配脚本还没有普及,到时候用fp8和fp4测一下就知道了

T.JOHN 发表于 2025-2-6 10:20

momoka 发表于 2025-2-6 10:14
比如SD这种大路软件,有和4090或者5090的对比的实测么`0`0`0`0

极客湾和装机猿有flux.dev bnb nf4模型测试,5090d遥遥领先4090,因为4090不支持fp4。但测不出和5090差距,原因就是主楼。
但实际上正经用sd的人就不会用nf4模型,q8起步。根据reddit的用户反馈q4/q5/q6模型不在于图像质量不如q8而是画出来的图形和q8是两种风格的,人类审美上根本不是一回事。

pdvc 发表于 2025-2-6 10:21

RIFE用的TRT,不知道能不能测出来区别,不过目前win下还是10.7版。

lh4357 发表于 2025-2-6 10:25

本帖最后由 lh4357 于 2025-2-6 10:32 编辑

最神奇的事情是,这都发售快一星期了,测个限制还这么费劲。。外加一堆软件不支持。

那么发售前10天就能测出锁多卡,以及锁算力的方式的到底是咋做到的。

如果那时候不能说,现在说的话应该没问题了吧。
然而那个人好像直接消失了。

T.JOHN 发表于 2025-2-6 10:35

lh4357 发表于 2025-2-6 10:25
最神奇的事情是,这都发售快一星期了,测个限制还这么费劲。。外加一堆软件不支持。

那么发售前10天就能测 ...

是挺费劲的,测试依赖后端框架适配,会python/cpp且手搓一个模型,你这不是要了自媒体的亲命么?现在起码知道密度算力并不受影响,不是么?
另外稀疏算力用的场景有限,在real world usage中测比写脚本测更有意义,现在没有这种benchmark软件。除非让furthermark公司写个aibenchmark,在windows上装一堆依赖,给几个精度选项。一键运行,那自媒体又能测出来了。

lh4357 发表于 2025-2-6 10:37

T.JOHN 发表于 2025-2-6 10:35
是挺费劲的,测试依赖后端框架适配,会python/cpp且手搓一个模型,你这不是要了自媒体的亲命么?现在起码 ...

https://www.chiphell.com/thread-2666266-1-1.html

我是说这个。。

purityWang 发表于 2025-2-6 10:37

lh4357 发表于 2025-2-6 10:25
最神奇的事情是,这都发售快一星期了,测个限制还这么费劲。。外加一堆软件不支持。

那么发售前10天就能测 ...

建议开个主贴着重讨论

q3again0605 发表于 2025-2-6 10:43

T.JOHN 发表于 2025-2-6 10:04
多卡互联分有两个问题,问题1. 把模型塞到不同显卡的显存中,lamma.cpp就能做到,塞到内存中都没问题,无 ...

有谁有5090D的,能看一下large bar的情况就好了,看不到了这条路是堵上了。lspci -s 01:00.0 -v,linux下的命令,01:00.0替换为5090D 5090的device号。
4090会出现
Memory at b2000000 (32-bit, non-prefetchable)
Memory at 28800000000 (64-bit, prefetchable) 这个是large bar (bar 1)
Memory at 28400000000 (64-bit, prefetchable)
P100
        Memory at e6000000 (32-bit, non-prefetchable)
        Memory at 79c00000000 (64-bit, prefetchable) 这个是large bar (bar 1)
        Memory at 7a000000000 (64-bit, prefetchable)



q3again0605 发表于 2025-2-6 10:44

momoka 发表于 2025-2-6 10:14
比如SD这种大路软件,有和4090或者5090的对比的实测么`0`0`0`0

早了点,适配还是会有问题,这段时间都有在做了。

T.JOHN 发表于 2025-2-6 10:44

本帖最后由 T.JOHN 于 2025-2-6 10:47 编辑

回19楼,
这种在windows下截图,谈ai锁算力的。无代码,无环境,无过程的三无人士一律无视chh信源可靠的常见就那么几个,除非那个楼主是柯基

q3again0605 发表于 2025-2-6 10:45

T.JOHN 发表于 2025-2-6 10:04
多卡互联分有两个问题,问题1. 把模型塞到不同显卡的显存中,lamma.cpp就能做到,塞到内存中都没问题,无 ...

vllm,sglang都可以采用tp的方式加速推理,有p2p或者nvlink对延迟和卡间通讯的改善明显。

nic000fol 发表于 2025-2-6 10:47

lh4357 发表于 2025-2-6 10:25
最神奇的事情是,这都发售快一星期了,测个限制还这么费劲。。外加一堆软件不支持。

那么发售前10天就能测 ...

3秒真男人?

lh4357 发表于 2025-2-6 12:11

q3again0605 发表于 2025-2-6 10:43
有谁有5090D的,能看一下large bar的情况就好了,看不到了这条路是堵上了。lspci -s 01:00.0 -v,linux下 ...

5090D的。

01:00.0 VGA compatible controller: NVIDIA Corporation Device 2b87 (rev a1) (prog-if 00 )
        Memory at 80000000 (32-bit, non-prefetchable)
        Memory at 4000000000 (64-bit, prefetchable)
        Memory at 4800000000 (64-bit, prefetchable)

q3again0605 发表于 2025-2-6 12:19

lh4357 发表于 2025-2-6 12:11
5090D的。

01:00.0 VGA compatible controller: NVIDIA Corporation Device 2b87 (rev a1) (prog-if 00...

谢谢,还在,看看老的补丁能否打在支持的驱动上。

lh4357 发表于 2025-2-6 12:21

q3again0605 发表于 2025-2-6 12:19
谢谢,还在,看看老的补丁能否打在支持的驱动上。

不了解这啥补丁,我只是找了个arch的安装盘进去看了下你说的这个。

松田 发表于 2025-2-6 12:31

其实我想知道, 如果只是训练给SD所用的那种LORA小模型, 5090D能做得到吗?会3秒被锁吗?

xyk456as 发表于 2025-2-6 12:33

[偷笑]所以是牢黄另辟蹊径,用更少的药效达成了更高的疗效?
页: [1] 2
查看完整版本: 检查算力限制条件,理论上5090D至少没割推理算力