B站UP关于5090和5090D的AI性能基准测试

fgfdhgg · 发表于 2025-2-3 11:55

我輩樹である发表于 2025-2-3 11:52
肯定是驱动不一样，nv被战未来了。

你这是用最新驱动跑的么，感觉是amd提前搞了优化玩偷袭了

guanqq_64 · 发表于 2025-2-3 12:03

卧槽老黄为了挣钱，公然欺天了？这不怕被国会老爷们砍吗？

Flanker · 发表于 2025-2-3 13:05

fgfdhgg 发表于 2025-2-3 11:55
你这是用最新驱动跑的么，感觉是amd提前搞了优化玩偷袭了

底下小字不都写着么

gyc · 发表于 2025-2-3 14:03

我輩樹である发表于 2025-2-3 10:49
deepseek的，跑32b还是很溜。

请问有测试多模态模型吗？大概什么性能？

我輩樹である · 发表于 2025-2-3 14:13

本帖最后由我輩樹である于 2025-2-3 14:15 编辑

gyc 发表于 2025-2-3 14:03
请问有测试多模态模型吗？大概什么性能？

回错了。

那个是知乎上的，有水印，不是我测的，我没5090

我輩樹である · 发表于 2025-2-3 14:16

fgfdhgg 发表于 2025-2-3 11:55
你这是用最新驱动跑的么，感觉是amd提前搞了优化玩偷袭了

知乎上的，我是转贴

cloud · 发表于 2025-2-4 09:07

neavo 发表于 2025-1-25 12:30
llama.cpp bench 一键包

链接: https://pan.baidu.com/s/1vG-liNmqxvNckMfKrxFTdA?pwd=tc4n 提取码: tc ...

main: n_kv_max = 65536, n_batch = 2048, n_ubatch = 512, flash_attn = 1, is_pp_shared = 0, n_gpu_layers = 99, n_threads = 14, n_threads_batch = 14

| PP |    TG | B | N_KV | T_PP s | S_PP t/s | T_TG s | S_TG t/s |    T s | S t/s |
|-------|--------|------|--------|----------|----------|----------|----------|----------|----------|
| 500 | 1500 | 1 | 2000 | 10.114 | 49.43 | 20.584 | 72.87 | 30.698 | 65.15 |
| 500 | 1500 | 2 | 4000 | 0.275 |  3632.59 | 23.171 | 129.47 | 23.447 | 170.60 |
| 500 | 1500 | 4 | 8000 | 0.565 |  3537.18 | 26.563 | 225.88 | 27.128 | 294.90 |
| 500 | 1500 | 8 |  16000 | 1.150 |  3478.43 | 32.223 | 372.40 | 33.373 | 479.43 |
| 500 | 1500 | 16 |  32000 | 2.397 |  3337.18 | 53.382 | 449.59 | 55.779 | 573.69 |
| 500 | 1500 | 32 |  64000 | 5.422 |  2950.76 | 73.411 | 653.85 | 78.834 | 811.84 |

llama_perf_context_print:       load time = 38099.04 ms
llama_perf_context_print: prompt eval time =  263440.83 ms / 124516 tokens ( 2.12 ms per token, 472.65 tokens per second)
llama_perf_context_print:       eval time = 20580.05 ms /  1500 runs ( 13.72 ms per token, 72.89 tokens per second)
llama_perf_context_print:    total time =  287359.37 ms / 126016 tokens

main: n_kv_max = 98304, n_batch = 2048, n_ubatch = 512, flash_attn = 1, is_pp_shared = 0, n_gpu_layers = 99, n_threads = 14, n_threads_batch = 14

| PP |    TG | B | N_KV | T_PP s | S_PP t/s | T_TG s | S_TG t/s |    T s | S t/s |
|-------|--------|------|--------|----------|----------|----------|----------|----------|----------|
| 500 | 2500 | 1 | 3000 | 0.170 |  2932.69 | 24.793 | 100.84 | 24.963 | 120.18 |
| 500 | 2500 | 2 | 6000 | 0.286 |  3494.29 | 38.868 | 128.64 | 39.154 | 153.24 |
| 500 | 2500 | 4 |  12000 | 0.567 |  3525.79 | 46.865 | 213.38 | 47.432 | 252.99 |
| 500 | 2500 | 8 |  24000 | 1.139 |  3510.81 | 58.651 | 341.00 | 59.791 | 401.40 |
| 500 | 2500 | 16 |  48000 | 2.415 |  3312.20 | 77.793 | 514.19 | 80.208 | 598.44 |
| 500 | 2500 | 32 |  96000 | 5.410 |  2957.52 |  145.522 | 549.74 |  150.932 | 636.05 |

llama_perf_context_print:       load time = 2742.79 ms
llama_perf_context_print: prompt eval time =  377652.87 ms / 186516 tokens ( 2.02 ms per token, 493.88 tokens per second)
llama_perf_context_print:       eval time = 24784.80 ms /  2500 runs ( 9.91 ms per token, 100.87 tokens per second)
llama_perf_context_print:    total time =  405224.93 ms / 189016 tokens

T.JOHN · 发表于 2025-2-4 10:30

cloud 发表于 2025-1-24 23:25
comfy+flux fp8+nf4我自己配置的 40的对比数据我都提前跑了但50根本跑不了

https://zhuanlan.zhihu.com ...

地雷云，你要是不部署TRT，9090都测不出性能阉割。

参考：这是我两年前写的如何跑katago，其实TRT其实不依赖CUDA能直接跑。两者不相关，TRT运行速度远高于CUDA。
https://www.chiphell.com/thread-2486435-1-1.html

方案：至于TRT怎么在comfyui里面调：参考官方库 https://github.com/comfyanonymous/ComfyUI_TensorRT

他主项目有65.7k的star，这个页面只有500star，可见大家只会拿来主义打包直接用，都没几个人使用过TRT插件。

我能肯定你100%测错的，根本没有测出算力限制，因为你的截图model的节点就没有TRT_loader。而且你一定要测fp4才能测出显著阉割差距。

网上90%测评人都不懂这玩意，他们只会跑简单的benchmark。唯一不确定的是极客湾，他们理论上不应该会犯这种错误。另外我相信，老黄说阉了就肯定阉了，没什么好讨价还价的。

我輩樹である · 发表于 2025-2-4 10:58

现在对阉割的说法都是源于本坛，但似乎没人复现？

一个是3秒锁算力，这个锁应该是指锁到2300t而非锁到0吧。
第二个就是多卡锁互联。这个语境也不清楚，是只普通的将一个模型分到2个gpu上还是值有dma的gpudirect功能？

第一个其实只要跑一个空转的mma就行了（写个核函数，只初始化一组数据，不停的wmma，不回写任何数据。这样不会导致显存带宽overhead），把tensor core跑满，具体代码可以问ai比我写得好。

第二个就需要多张显卡跑一个nccl通讯，4090是需要patch的，5090显然patch还没有出，当前只支持到linux的565.57.01.

期待有人测试后贴结果我们继续分析。

cloud · 发表于 2025-2-4 12:05

T.JOHN 发表于 2025-2-4 10:30
地雷云，你要是不部署TRT，9090都测不出性能阉割。

参考：这是我两年前写的如何跑katago，其实TRT其实不 ...

sd时代我跑过trt

之前50媒体沟通会演示机 comfy是配置好的trt 其实应该拷出来

gyc · 发表于 2025-2-4 13:33

首批 5090D已经出了，有没有朋友测试过性能到底差多少？

平安是福 · 发表于 2025-2-5 08:55

T.JOHN 发表于 2025-2-4 10:30
地雷云，你要是不部署TRT，9090都测不出性能阉割。

参考：这是我两年前写的如何跑katago，其实TRT其实不 ...

跑个fp16版的flux试试压力。。。fp8版的更容易蹦手

do0wmt1 · 发表于 2025-2-6 08:42

看来拿到卡的都不太懂AI训练啊，确实，炼丹是少数大牛干的事情

ypsdz · 发表于 2025-2-6 11:28

提示: 作者被禁止或删除内容自动屏蔽

cloud · 发表于 2025-2-6 11:32

ypsdz 发表于 2025-2-6 11:28
兄弟那推理绘图能用吗？

最近更新comfyui+flux可以用但nf4还不行

ypsdz · 发表于 2025-2-6 15:45

提示: 作者被禁止或删除内容自动屏蔽

账号		自动登录	找回密码
密码			加入我们

ypsdz ypsdz 当前离线积分 -318	发表于 2025-2-6 11:28 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽
ypsdz ypsdz 当前离线积分 -318
	回复举报

ypsdz ypsdz 当前离线积分 -318	发表于 2025-2-6 15:45 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽
ypsdz ypsdz 当前离线积分 -318
	回复举报

[显卡] B站UP关于5090和5090D的AI性能基准测试