检查算力限制条件,理论上5090D至少没割推理算力
本帖最后由 T.JOHN 于 2025-2-6 21:52 编辑2/6/25 21:50更新&纠错
我重新看了下blackwell白皮书,按4090D阉割的逻辑,二楼说了对,我之前主帖是错误的。4090的FP8的密度算力是660。那么算力阉割看密度算力,不看稀疏算力,下面写的都是废话。
5090D的flux nf4极客湾测过了,和5090性能一样的,远快于4090,也不存在软件没适配好的问题,因为nv发布会上show的就是flux。即便是看密度算力,1676*4=6704,早就超了4800了。
但我们也不能说老黄限制的是实际算力,因为实际算力依赖环境,总是和理论标称是有差距的。去年底有个做ai benchmark做了苏妈专访的,他专门测了mi300和h100实际/理论算力比,h100情况要比mi300好很多。老黄只能割理论算力,这样美国出口管理才好认定。
总之极客湾云飞说了对,5090D这个“D”了有点迷
至于推理,还是和训练有点区别的。比如你没有nvlink,推理用pcie4.0x8+pcie4.0x4/x8会慢上40%,最终结果可能还是要请人测一下
美出口限制为4800TPP。以4090为例,fp16是的稀疏算力是330t,tpp=330x16=5280略超4800,老黄就刀了10%变成4090D。
但实际上这是稀疏算力,也就是党权重为0时,线性代数有大量0的值,此时n卡可以快速处理,是正常密度算力的两倍。而真实算力也就1/2,即165t。
触发稀疏算力有以下几条件
1.清洗过的模型。
怎么清洗参考 tensorflow官网,https://www.tensorflow.org/model_optimization/guide/pruning/pruning_with_sparsity_2_by_4
2.支持的cuda库cusparelt或使用trt
3.使用优化的后端,比如trt-lllm能让稀疏计算使用率可以达到50-70%,vllm只有20-40%
目前llm的后端引擎有两位数了,每个在github上少则几千多则几万的star,效率各不相同。n卡最好用trt-llm+triton server测
benchmark参考:https://www.bentoml.com/blog/benchmarking-llm-inference-backends
4.使用30系显卡以后显卡,之前20系有tensor core也不支持,更别提没tensor core的卡
注:5090的真实tpp就3360,达不到限制的4800,无需阉割。4800当时都是对着a100标的 4090 fp16稀疏算力是660 660x8和330x16有区别?玩文字游戏有意思?
如果真是这样的话出d的意义在哪啊 不懂,就说普通用户单卡,用生产力软件渲染,和用大路算涩图软件算图,是不是都毫无影响,囧。 推理的工作负载太低了,还是看训练和微调。只要哪天github上出个50系支持的训练脚本就可以看看dog版的真实面目了……到时候什么nccl啊都一起上看看是不是真的在河里罗勇 5090D显卡跑AI效果可以看一下这个视频:BV1aNPBeZE5d 明白了,还有个问题,多卡互联的问题,3090ti后就不支持nvlink,2080ti开始不支持p2p,3090,90ti,4090还有large bar可以用开源内核打开p2p的限制,5090, 90D large bar是否还在,如果还在的话pcie5.0的p2p也是不错的。 welsmann 发表于 2025-2-6 09:48
推理的工作负载太低了,还是看训练和微调。只要哪天github上出个50系支持的训练脚本就可以看看dog版的真实 ...
首先推理工作负载不低,打满tgp没问题。其次推理和训练对gpu来说没区别,它不过是执行逻辑计算罢了。训练中能用到稀疏计算的训练有最近很流行的moe
q3again0605 发表于 2025-2-6 09:56
明白了,还有个问题,多卡互联的问题,3090ti后就不支持nvlink,2080ti开始不支持p2p,3090,90ti,4090还有 ...
多卡互联分有两个问题,问题1. 把模型塞到不同显卡的显存中,lamma.cpp就能做到,塞到内存中都没问题,无非就是降速罢了。 问题2. 多卡训练/推理速度成倍增长,a100/h100肯定可以,消费级不清楚老黄阉割程度,ollama不提升多卡性能。没找到其他后端多卡性能测试
spikeout506 发表于 2025-2-6 09:51
5090D显卡跑AI效果可以看一下这个视频:BV1aNPBeZE5d
这个up主是小白,这视频是浪费生命,blackwell很多框架正在适配中,目前跑不了正常
momoka 发表于 2025-2-6 09:45
不懂,就说普通用户单卡,用生产力软件渲染,和用大路算涩图软件算图,是不是都毫无影响,囧。 ...
传统生产力没影响,sd对于开箱即用的用户没啥影响。对于手动改工作流和后端的人有一定影响,但得对部署和调模型足够专业才行
T.JOHN 发表于 2025-2-6 10:12
传统生产力没影响,sd对于开箱即用的用户没啥影响。对于手动改工作流和后端的人有一定影响,但得对部署和 ...
比如SD这种大路软件,有和4090或者5090的对比的实测么`0`0`0`0 本帖最后由 welsmann 于 2025-2-6 10:19 编辑
T.JOHN 发表于 2025-2-6 09:56
首先推理工作负载不低,打满tgp没问题。其次推理和训练对gpu来说没区别,它不过是执行逻辑计算罢了。训练 ...
但训练还是要测,光推理不训练没法证明算力未阉割
要是有个50系支持的moe微调脚本就可以用90d一试了,可惜现在好像还看不到。
还有就是类似于sd3.5 large 和flux1的50系lora适配脚本还没有普及,到时候用fp8和fp4测一下就知道了 momoka 发表于 2025-2-6 10:14
比如SD这种大路软件,有和4090或者5090的对比的实测么`0`0`0`0
极客湾和装机猿有flux.dev bnb nf4模型测试,5090d遥遥领先4090,因为4090不支持fp4。但测不出和5090差距,原因就是主楼。
但实际上正经用sd的人就不会用nf4模型,q8起步。根据reddit的用户反馈q4/q5/q6模型不在于图像质量不如q8而是画出来的图形和q8是两种风格的,人类审美上根本不是一回事。
RIFE用的TRT,不知道能不能测出来区别,不过目前win下还是10.7版。 本帖最后由 lh4357 于 2025-2-6 10:32 编辑
最神奇的事情是,这都发售快一星期了,测个限制还这么费劲。。外加一堆软件不支持。
那么发售前10天就能测出锁多卡,以及锁算力的方式的到底是咋做到的。
如果那时候不能说,现在说的话应该没问题了吧。
然而那个人好像直接消失了。 lh4357 发表于 2025-2-6 10:25
最神奇的事情是,这都发售快一星期了,测个限制还这么费劲。。外加一堆软件不支持。
那么发售前10天就能测 ...
是挺费劲的,测试依赖后端框架适配,会python/cpp且手搓一个模型,你这不是要了自媒体的亲命么?现在起码知道密度算力并不受影响,不是么?
另外稀疏算力用的场景有限,在real world usage中测比写脚本测更有意义,现在没有这种benchmark软件。除非让furthermark公司写个aibenchmark,在windows上装一堆依赖,给几个精度选项。一键运行,那自媒体又能测出来了。
T.JOHN 发表于 2025-2-6 10:35
是挺费劲的,测试依赖后端框架适配,会python/cpp且手搓一个模型,你这不是要了自媒体的亲命么?现在起码 ...
https://www.chiphell.com/thread-2666266-1-1.html
我是说这个。。 lh4357 发表于 2025-2-6 10:25
最神奇的事情是,这都发售快一星期了,测个限制还这么费劲。。外加一堆软件不支持。
那么发售前10天就能测 ...
建议开个主贴着重讨论 T.JOHN 发表于 2025-2-6 10:04
多卡互联分有两个问题,问题1. 把模型塞到不同显卡的显存中,lamma.cpp就能做到,塞到内存中都没问题,无 ...
有谁有5090D的,能看一下large bar的情况就好了,看不到了这条路是堵上了。lspci -s 01:00.0 -v,linux下的命令,01:00.0替换为5090D 5090的device号。
4090会出现
Memory at b2000000 (32-bit, non-prefetchable)
Memory at 28800000000 (64-bit, prefetchable) 这个是large bar (bar 1)
Memory at 28400000000 (64-bit, prefetchable)
P100
Memory at e6000000 (32-bit, non-prefetchable)
Memory at 79c00000000 (64-bit, prefetchable) 这个是large bar (bar 1)
Memory at 7a000000000 (64-bit, prefetchable)
momoka 发表于 2025-2-6 10:14
比如SD这种大路软件,有和4090或者5090的对比的实测么`0`0`0`0
早了点,适配还是会有问题,这段时间都有在做了。 本帖最后由 T.JOHN 于 2025-2-6 10:47 编辑
回19楼,
这种在windows下截图,谈ai锁算力的。无代码,无环境,无过程的三无人士一律无视chh信源可靠的常见就那么几个,除非那个楼主是柯基 T.JOHN 发表于 2025-2-6 10:04
多卡互联分有两个问题,问题1. 把模型塞到不同显卡的显存中,lamma.cpp就能做到,塞到内存中都没问题,无 ...
vllm,sglang都可以采用tp的方式加速推理,有p2p或者nvlink对延迟和卡间通讯的改善明显。 lh4357 发表于 2025-2-6 10:25
最神奇的事情是,这都发售快一星期了,测个限制还这么费劲。。外加一堆软件不支持。
那么发售前10天就能测 ...
3秒真男人? q3again0605 发表于 2025-2-6 10:43
有谁有5090D的,能看一下large bar的情况就好了,看不到了这条路是堵上了。lspci -s 01:00.0 -v,linux下 ...
5090D的。
01:00.0 VGA compatible controller: NVIDIA Corporation Device 2b87 (rev a1) (prog-if 00 )
Memory at 80000000 (32-bit, non-prefetchable)
Memory at 4000000000 (64-bit, prefetchable)
Memory at 4800000000 (64-bit, prefetchable)
lh4357 发表于 2025-2-6 12:11
5090D的。
01:00.0 VGA compatible controller: NVIDIA Corporation Device 2b87 (rev a1) (prog-if 00...
谢谢,还在,看看老的补丁能否打在支持的驱动上。 q3again0605 发表于 2025-2-6 12:19
谢谢,还在,看看老的补丁能否打在支持的驱动上。
不了解这啥补丁,我只是找了个arch的安装盘进去看了下你说的这个。 其实我想知道, 如果只是训练给SD所用的那种LORA小模型, 5090D能做得到吗?会3秒被锁吗? [偷笑]所以是牢黄另辟蹊径,用更少的药效达成了更高的疗效?
页:
[1]
2