检查算力限制条件，理论上5090D至少没割推理算力

T.JOHN 发表于 2025-2-6 09:21

本帖最后由 T.JOHN 于 2025-2-6 21:52 编辑

2/6/25 21:50更新&纠错
我重新看了下blackwell白皮书，按4090D阉割的逻辑，二楼说了对，我之前主帖是错误的。4090的FP8的密度算力是660。那么算力阉割看密度算力，不看稀疏算力，下面写的都是废话。

5090D的flux nf4极客湾测过了，和5090性能一样的，远快于4090，也不存在软件没适配好的问题，因为nv发布会上show的就是flux。即便是看密度算力，1676*4=6704，早就超了4800了。

但我们也不能说老黄限制的是实际算力，因为实际算力依赖环境，总是和理论标称是有差距的。去年底有个做ai benchmark做了苏妈专访的，他专门测了mi300和h100实际/理论算力比，h100情况要比mi300好很多。老黄只能割理论算力，这样美国出口管理才好认定。

总之极客湾云飞说了对，5090D这个“D”了有点迷

至于推理，还是和训练有点区别的。比如你没有nvlink，推理用pcie4.0x8+pcie4.0x4/x8会慢上40%，最终结果可能还是要请人测一下

美出口限制为4800TPP。以4090为例，fp16是的稀疏算力是330t，tpp=330x16=5280略超4800，老黄就刀了10%变成4090D。
但实际上这是稀疏算力，也就是党权重为0时，线性代数有大量0的值，此时n卡可以快速处理，是正常密度算力的两倍。而真实算力也就1/2，即165t。

触发稀疏算力有以下几条件
1.清洗过的模型。
怎么清洗参考 tensorflow官网，https://www.tensorflow.org/model_optimization/guide/pruning/pruning_with_sparsity_2_by_4
2.支持的cuda库cusparelt或使用trt
3.使用优化的后端，比如trt-lllm能让稀疏计算使用率可以达到50-70%，vllm只有20-40%
目前llm的后端引擎有两位数了，每个在github上少则几千多则几万的star，效率各不相同。n卡最好用trt-llm+triton server测
benchmark参考：https://www.bentoml.com/blog/benchmarking-llm-inference-backends
4.使用30系显卡以后显卡，之前20系有tensor core也不支持，更别提没tensor core的卡

注：5090的真实tpp就3360，达不到限制的4800，无需阉割。4800当时都是对着a100标的

PolyMorph 发表于 2025-2-6 09:22

4090 fp16稀疏算力是660

T.JOHN 发表于 2025-2-6 09:25

660x8和330x16有区别？玩文字游戏有意思？

ainomelody 发表于 2025-2-6 09:44

如果真是这样的话出d的意义在哪啊

momoka 发表于 2025-2-6 09:45

不懂，就说普通用户单卡，用生产力软件渲染，和用大路算涩图软件算图，是不是都毫无影响，囧。

welsmann 发表于 2025-2-6 09:48

推理的工作负载太低了，还是看训练和微调。只要哪天github上出个50系支持的训练脚本就可以看看dog版的真实面目了……到时候什么nccl啊都一起上看看是不是真的在河里罗勇

spikeout506 发表于 2025-2-6 09:51

5090D显卡跑AI效果可以看一下这个视频：BV1aNPBeZE5d

q3again0605 发表于 2025-2-6 09:56

明白了，还有个问题，多卡互联的问题，3090ti后就不支持nvlink，2080ti开始不支持p2p，3090,90ti，4090还有large bar可以用开源内核打开p2p的限制，5090, 90D large bar是否还在，如果还在的话pcie5.0的p2p也是不错的。

T.JOHN 发表于 2025-2-6 09:56

welsmann 发表于 2025-2-6 09:48
推理的工作负载太低了，还是看训练和微调。只要哪天github上出个50系支持的训练脚本就可以看看dog版的真实 ...

首先推理工作负载不低，打满tgp没问题。其次推理和训练对gpu来说没区别，它不过是执行逻辑计算罢了。训练中能用到稀疏计算的训练有最近很流行的moe

T.JOHN 发表于 2025-2-6 10:04

q3again0605 发表于 2025-2-6 09:56
明白了，还有个问题，多卡互联的问题，3090ti后就不支持nvlink，2080ti开始不支持p2p，3090,90ti，4090还有 ...

多卡互联分有两个问题，问题1. 把模型塞到不同显卡的显存中，lamma.cpp就能做到，塞到内存中都没问题，无非就是降速罢了。问题2. 多卡训练/推理速度成倍增长，a100/h100肯定可以，消费级不清楚老黄阉割程度，ollama不提升多卡性能。没找到其他后端多卡性能测试

T.JOHN 发表于 2025-2-6 10:06

spikeout506 发表于 2025-2-6 09:51
5090D显卡跑AI效果可以看一下这个视频：BV1aNPBeZE5d

这个up主是小白，这视频是浪费生命，blackwell很多框架正在适配中，目前跑不了正常

T.JOHN 发表于 2025-2-6 10:12

momoka 发表于 2025-2-6 09:45
不懂，就说普通用户单卡，用生产力软件渲染，和用大路算涩图软件算图，是不是都毫无影响，囧。 ...

传统生产力没影响，sd对于开箱即用的用户没啥影响。对于手动改工作流和后端的人有一定影响，但得对部署和调模型足够专业才行

momoka 发表于 2025-2-6 10:14

T.JOHN 发表于 2025-2-6 10:12
传统生产力没影响，sd对于开箱即用的用户没啥影响。对于手动改工作流和后端的人有一定影响，但得对部署和 ...

比如SD这种大路软件，有和4090或者5090的对比的实测么`0`0`0`0

welsmann 发表于 2025-2-6 10:17

本帖最后由 welsmann 于 2025-2-6 10:19 编辑

T.JOHN 发表于 2025-2-6 09:56
首先推理工作负载不低，打满tgp没问题。其次推理和训练对gpu来说没区别，它不过是执行逻辑计算罢了。训练 ...

但训练还是要测，光推理不训练没法证明算力未阉割

要是有个50系支持的moe微调脚本就可以用90d一试了，可惜现在好像还看不到。

还有就是类似于sd3.5 large 和flux1的50系lora适配脚本还没有普及，到时候用fp8和fp4测一下就知道了

T.JOHN 发表于 2025-2-6 10:20

momoka 发表于 2025-2-6 10:14
比如SD这种大路软件，有和4090或者5090的对比的实测么`0`0`0`0

极客湾和装机猿有flux.dev bnb nf4模型测试，5090d遥遥领先4090，因为4090不支持fp4。但测不出和5090差距，原因就是主楼。
但实际上正经用sd的人就不会用nf4模型，q8起步。根据reddit的用户反馈q4/q5/q6模型不在于图像质量不如q8而是画出来的图形和q8是两种风格的，人类审美上根本不是一回事。

pdvc 发表于 2025-2-6 10:21

RIFE用的TRT，不知道能不能测出来区别，不过目前win下还是10.7版。

lh4357 发表于 2025-2-6 10:25

本帖最后由 lh4357 于 2025-2-6 10:32 编辑

最神奇的事情是，这都发售快一星期了，测个限制还这么费劲。。外加一堆软件不支持。

那么发售前10天就能测出锁多卡，以及锁算力的方式的到底是咋做到的。

如果那时候不能说，现在说的话应该没问题了吧。
然而那个人好像直接消失了。

T.JOHN 发表于 2025-2-6 10:35

lh4357 发表于 2025-2-6 10:25
最神奇的事情是，这都发售快一星期了，测个限制还这么费劲。。外加一堆软件不支持。

那么发售前10天就能测 ...

是挺费劲的，测试依赖后端框架适配，会python/cpp且手搓一个模型，你这不是要了自媒体的亲命么？现在起码知道密度算力并不受影响，不是么？
另外稀疏算力用的场景有限，在real world usage中测比写脚本测更有意义，现在没有这种benchmark软件。除非让furthermark公司写个aibenchmark，在windows上装一堆依赖，给几个精度选项。一键运行，那自媒体又能测出来了。

lh4357 发表于 2025-2-6 10:37

T.JOHN 发表于 2025-2-6 10:35
是挺费劲的，测试依赖后端框架适配，会python/cpp且手搓一个模型，你这不是要了自媒体的亲命么？现在起码 ...

https://www.chiphell.com/thread-2666266-1-1.html

我是说这个。。

purityWang 发表于 2025-2-6 10:37

lh4357 发表于 2025-2-6 10:25
最神奇的事情是，这都发售快一星期了，测个限制还这么费劲。。外加一堆软件不支持。

那么发售前10天就能测 ...

建议开个主贴着重讨论

q3again0605 发表于 2025-2-6 10:43

T.JOHN 发表于 2025-2-6 10:04
多卡互联分有两个问题，问题1. 把模型塞到不同显卡的显存中，lamma.cpp就能做到，塞到内存中都没问题，无 ...

有谁有5090D的，能看一下large bar的情况就好了，看不到了这条路是堵上了。lspci -s 01:00.0 -v，linux下的命令，01:00.0替换为5090D 5090的device号。
4090会出现
Memory at b2000000 (32-bit, non-prefetchable)
Memory at 28800000000 (64-bit, prefetchable) 这个是large bar (bar 1)
Memory at 28400000000 (64-bit, prefetchable)
P100
Memory at e6000000 (32-bit, non-prefetchable)
Memory at 79c00000000 (64-bit, prefetchable) 这个是large bar (bar 1)
Memory at 7a000000000 (64-bit, prefetchable)

q3again0605 发表于 2025-2-6 10:44

momoka 发表于 2025-2-6 10:14
比如SD这种大路软件，有和4090或者5090的对比的实测么`0`0`0`0

早了点，适配还是会有问题，这段时间都有在做了。

T.JOHN 发表于 2025-2-6 10:44

本帖最后由 T.JOHN 于 2025-2-6 10:47 编辑

回19楼，
这种在windows下截图，谈ai锁算力的。无代码，无环境，无过程的三无人士一律无视chh信源可靠的常见就那么几个，除非那个楼主是柯基

q3again0605 发表于 2025-2-6 10:45

T.JOHN 发表于 2025-2-6 10:04
多卡互联分有两个问题，问题1. 把模型塞到不同显卡的显存中，lamma.cpp就能做到，塞到内存中都没问题，无 ...

vllm，sglang都可以采用tp的方式加速推理，有p2p或者nvlink对延迟和卡间通讯的改善明显。

nic000fol 发表于 2025-2-6 10:47

lh4357 发表于 2025-2-6 10:25
最神奇的事情是，这都发售快一星期了，测个限制还这么费劲。。外加一堆软件不支持。

那么发售前10天就能测 ...

3秒真男人？

lh4357 发表于 2025-2-6 12:11

q3again0605 发表于 2025-2-6 10:43
有谁有5090D的，能看一下large bar的情况就好了，看不到了这条路是堵上了。lspci -s 01:00.0 -v，linux下 ...

5090D的。

01:00.0 VGA compatible controller: NVIDIA Corporation Device 2b87 (rev a1) (prog-if 00 )
Memory at 80000000 (32-bit, non-prefetchable)
Memory at 4000000000 (64-bit, prefetchable)
Memory at 4800000000 (64-bit, prefetchable)

q3again0605 发表于 2025-2-6 12:19

lh4357 发表于 2025-2-6 12:11
5090D的。

01:00.0 VGA compatible controller: NVIDIA Corporation Device 2b87 (rev a1) (prog-if 00...

谢谢，还在，看看老的补丁能否打在支持的驱动上。

lh4357 发表于 2025-2-6 12:21

q3again0605 发表于 2025-2-6 12:19
谢谢，还在，看看老的补丁能否打在支持的驱动上。

不了解这啥补丁，我只是找了个arch的安装盘进去看了下你说的这个。

松田发表于 2025-2-6 12:31

其实我想知道, 如果只是训练给SD所用的那种LORA小模型, 5090D能做得到吗?会3秒被锁吗?

xyk456as 发表于 2025-2-6 12:33

[偷笑]所以是牢黄另辟蹊径，用更少的药效达成了更高的疗效？

页: [1] 2

Chiphell - 分享与交流用户体验's Archiver

检查算力限制条件，理论上5090D至少没割推理算力