找回密码
 加入我们
搜索
      
楼主: 木子滴血

[显卡] B站UP关于5090和5090D的AI性能基准测试

[复制链接]
发表于 2025-2-3 11:55 | 显示全部楼层
我輩樹である 发表于 2025-2-3 11:52
肯定是驱动不一样,nv被战未来了。

你这是用最新驱动跑的么,感觉是amd提前搞了优化玩偷袭了
发表于 2025-2-3 12:03 | 显示全部楼层
卧槽老黄为了挣钱,公然欺天了?这不怕被国会老爷们砍吗?
发表于 2025-2-3 13:05 | 显示全部楼层
fgfdhgg 发表于 2025-2-3 11:55
你这是用最新驱动跑的么,感觉是amd提前搞了优化玩偷袭了

底下小字不都写着么
发表于 2025-2-3 14:03 | 显示全部楼层
我輩樹である 发表于 2025-2-3 10:49
deepseek的,跑32b还是很溜。

请问有测试多模态模型吗? 大概什么性能?
发表于 2025-2-3 14:13 | 显示全部楼层
本帖最后由 我輩樹である 于 2025-2-3 14:15 编辑
gyc 发表于 2025-2-3 14:03
请问有测试多模态模型吗? 大概什么性能?


回错了。

那个是知乎上的,有水印,不是我测的,我没5090
发表于 2025-2-3 14:16 | 显示全部楼层
fgfdhgg 发表于 2025-2-3 11:55
你这是用最新驱动跑的么,感觉是amd提前搞了优化玩偷袭了

知乎上的,我是转贴
发表于 2025-2-4 09:07 | 显示全部楼层
neavo 发表于 2025-1-25 12:30
llama.cpp bench 一键包

链接: https://pan.baidu.com/s/1vG-liNmqxvNckMfKrxFTdA?pwd=tc4n 提取码: tc ...

main: n_kv_max = 65536, n_batch = 2048, n_ubatch = 512, flash_attn = 1, is_pp_shared = 0, n_gpu_layers = 99, n_threads = 14, n_threads_batch = 14

|    PP |     TG |    B |   N_KV |   T_PP s | S_PP t/s |   T_TG s | S_TG t/s |      T s |    S t/s |
|-------|--------|------|--------|----------|----------|----------|----------|----------|----------|
|   500 |   1500 |    1 |   2000 |   10.114 |    49.43 |   20.584 |    72.87 |   30.698 |    65.15 |
|   500 |   1500 |    2 |   4000 |    0.275 |  3632.59 |   23.171 |   129.47 |   23.447 |   170.60 |
|   500 |   1500 |    4 |   8000 |    0.565 |  3537.18 |   26.563 |   225.88 |   27.128 |   294.90 |
|   500 |   1500 |    8 |  16000 |    1.150 |  3478.43 |   32.223 |   372.40 |   33.373 |   479.43 |
|   500 |   1500 |   16 |  32000 |    2.397 |  3337.18 |   53.382 |   449.59 |   55.779 |   573.69 |
|   500 |   1500 |   32 |  64000 |    5.422 |  2950.76 |   73.411 |   653.85 |   78.834 |   811.84 |

llama_perf_context_print:        load time =   38099.04 ms
llama_perf_context_print: prompt eval time =  263440.83 ms / 124516 tokens (    2.12 ms per token,   472.65 tokens per second)
llama_perf_context_print:        eval time =   20580.05 ms /  1500 runs   (   13.72 ms per token,    72.89 tokens per second)
llama_perf_context_print:       total time =  287359.37 ms / 126016 tokens

main: n_kv_max = 98304, n_batch = 2048, n_ubatch = 512, flash_attn = 1, is_pp_shared = 0, n_gpu_layers = 99, n_threads = 14, n_threads_batch = 14

|    PP |     TG |    B |   N_KV |   T_PP s | S_PP t/s |   T_TG s | S_TG t/s |      T s |    S t/s |
|-------|--------|------|--------|----------|----------|----------|----------|----------|----------|
|   500 |   2500 |    1 |   3000 |    0.170 |  2932.69 |   24.793 |   100.84 |   24.963 |   120.18 |
|   500 |   2500 |    2 |   6000 |    0.286 |  3494.29 |   38.868 |   128.64 |   39.154 |   153.24 |
|   500 |   2500 |    4 |  12000 |    0.567 |  3525.79 |   46.865 |   213.38 |   47.432 |   252.99 |
|   500 |   2500 |    8 |  24000 |    1.139 |  3510.81 |   58.651 |   341.00 |   59.791 |   401.40 |
|   500 |   2500 |   16 |  48000 |    2.415 |  3312.20 |   77.793 |   514.19 |   80.208 |   598.44 |
|   500 |   2500 |   32 |  96000 |    5.410 |  2957.52 |  145.522 |   549.74 |  150.932 |   636.05 |

llama_perf_context_print:        load time =    2742.79 ms
llama_perf_context_print: prompt eval time =  377652.87 ms / 186516 tokens (    2.02 ms per token,   493.88 tokens per second)
llama_perf_context_print:        eval time =   24784.80 ms /  2500 runs   (    9.91 ms per token,   100.87 tokens per second)
llama_perf_context_print:       total time =  405224.93 ms / 189016 tokens
发表于 2025-2-4 10:30 | 显示全部楼层
cloud 发表于 2025-1-24 23:25
comfy+flux fp8+nf4我自己配置的 40的对比数据我都提前跑了 但50根本跑不了

https://zhuanlan.zhihu.com ...


地雷云,你要是不部署TRT,9090都测不出性能阉割。

参考:这是我两年前写的如何跑katago,其实TRT其实不依赖CUDA能直接跑。两者不相关,TRT运行速度远高于CUDA。
https://www.chiphell.com/thread-2486435-1-1.html

方案:至于TRT怎么在comfyui里面调:参考官方库 https://github.com/comfyanonymous/ComfyUI_TensorRT

他主项目有65.7k的star,这个页面只有500star,可见大家只会拿来主义打包直接用,都没几个人使用过TRT插件。

我能肯定你100%测错的,根本没有测出算力限制,因为你的截图model的节点就没有TRT_loader。而且你一定要测fp4才能测出显著阉割差距。

网上90%测评人都不懂这玩意,他们只会跑简单的benchmark。唯一不确定的是极客湾,他们理论上不应该会犯这种错误。另外我相信,老黄说阉了就肯定阉了,没什么好讨价还价的。
发表于 2025-2-4 10:58 | 显示全部楼层
现在对阉割的说法都是源于本坛,但似乎没人复现?

一个是3秒锁算力,这个锁应该是指锁到2300t而非锁到0吧。
第二个就是多卡锁互联。这个语境也不清楚,是只普通的将一个模型分到2个gpu上还是值有dma的gpudirect功能?

第一个其实只要跑一个空转的mma就行了(写个核函数,只初始化一组数据,不停的wmma,不回写任何数据。这样不会导致显存带宽overhead),把tensor core跑满,具体代码可以问ai比我写得好。

第二个就需要多张显卡跑一个nccl通讯,4090是需要patch的,5090显然patch还没有出,当前只支持到linux的565.57.01.

期待有人测试后贴结果我们继续分析。
发表于 2025-2-4 12:05 | 显示全部楼层
T.JOHN 发表于 2025-2-4 10:30
地雷云,你要是不部署TRT,9090都测不出性能阉割。

参考:这是我两年前写的如何跑katago,其实TRT其实不 ...

sd时代我跑过trt

之前50媒体沟通会演示机 comfy是配置好的trt 其实应该拷出来
发表于 2025-2-4 13:33 | 显示全部楼层
首批 5090D已经出了, 有没有朋友测试过 性能到底差多少?
发表于 2025-2-5 08:55 | 显示全部楼层
T.JOHN 发表于 2025-2-4 10:30
地雷云,你要是不部署TRT,9090都测不出性能阉割。

参考:这是我两年前写的如何跑katago,其实TRT其实不 ...

跑个fp16版的flux试试压力。。。fp8版的更容易蹦手
发表于 2025-2-6 08:42 | 显示全部楼层
看来拿到卡的都不太懂AI训练啊,确实,炼丹是少数大牛干的事情
发表于 2025-2-6 11:28 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2025-2-6 11:32 | 显示全部楼层
ypsdz 发表于 2025-2-6 11:28
兄弟那推理绘图能用吗?

最近更新comfyui+flux可以用 但nf4还不行
发表于 2025-2-6 15:45 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-22 20:41 , Processed in 0.009787 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表