fgfdhgg 发表于 2025-2-3 11:55

我輩樹である 发表于 2025-2-3 11:52
肯定是驱动不一样,nv被战未来了。

你这是用最新驱动跑的么,感觉是amd提前搞了优化玩偷袭了

guanqq_64 发表于 2025-2-3 12:03

卧槽老黄为了挣钱,公然欺天了?这不怕被国会老爷们砍吗?

Flanker 发表于 2025-2-3 13:05

fgfdhgg 发表于 2025-2-3 11:55
你这是用最新驱动跑的么,感觉是amd提前搞了优化玩偷袭了

底下小字不都写着么

gyc 发表于 2025-2-3 14:03

我輩樹である 发表于 2025-2-3 10:49
deepseek的,跑32b还是很溜。

请问有测试多模态模型吗? 大概什么性能?

我輩樹である 发表于 2025-2-3 14:13

本帖最后由 我輩樹である 于 2025-2-3 14:15 编辑

gyc 发表于 2025-2-3 14:03
请问有测试多模态模型吗? 大概什么性能?

回错了。

那个是知乎上的,有水印,不是我测的,我没5090

我輩樹である 发表于 2025-2-3 14:16

fgfdhgg 发表于 2025-2-3 11:55
你这是用最新驱动跑的么,感觉是amd提前搞了优化玩偷袭了

知乎上的,我是转贴

cloud 发表于 2025-2-4 09:07

neavo 发表于 2025-1-25 12:30
llama.cpp bench 一键包

链接: https://pan.baidu.com/s/1vG-liNmqxvNckMfKrxFTdA?pwd=tc4n 提取码: tc ...

main: n_kv_max = 65536, n_batch = 2048, n_ubatch = 512, flash_attn = 1, is_pp_shared = 0, n_gpu_layers = 99, n_threads = 14, n_threads_batch = 14

|    PP |   TG |    B |   N_KV |   T_PP s | S_PP t/s |   T_TG s | S_TG t/s |      T s |    S t/s |
|-------|--------|------|--------|----------|----------|----------|----------|----------|----------|
|   500 |   1500 |    1 |   2000 |   10.114 |    49.43 |   20.584 |    72.87 |   30.698 |    65.15 |
|   500 |   1500 |    2 |   4000 |    0.275 |3632.59 |   23.171 |   129.47 |   23.447 |   170.60 |
|   500 |   1500 |    4 |   8000 |    0.565 |3537.18 |   26.563 |   225.88 |   27.128 |   294.90 |
|   500 |   1500 |    8 |16000 |    1.150 |3478.43 |   32.223 |   372.40 |   33.373 |   479.43 |
|   500 |   1500 |   16 |32000 |    2.397 |3337.18 |   53.382 |   449.59 |   55.779 |   573.69 |
|   500 |   1500 |   32 |64000 |    5.422 |2950.76 |   73.411 |   653.85 |   78.834 |   811.84 |

llama_perf_context_print:      load time =   38099.04 ms
llama_perf_context_print: prompt eval time =263440.83 ms / 124516 tokens (    2.12 ms per token,   472.65 tokens per second)
llama_perf_context_print:      eval time =   20580.05 ms /1500 runs   (   13.72 ms per token,    72.89 tokens per second)
llama_perf_context_print:       total time =287359.37 ms / 126016 tokens

main: n_kv_max = 98304, n_batch = 2048, n_ubatch = 512, flash_attn = 1, is_pp_shared = 0, n_gpu_layers = 99, n_threads = 14, n_threads_batch = 14

|    PP |   TG |    B |   N_KV |   T_PP s | S_PP t/s |   T_TG s | S_TG t/s |      T s |    S t/s |
|-------|--------|------|--------|----------|----------|----------|----------|----------|----------|
|   500 |   2500 |    1 |   3000 |    0.170 |2932.69 |   24.793 |   100.84 |   24.963 |   120.18 |
|   500 |   2500 |    2 |   6000 |    0.286 |3494.29 |   38.868 |   128.64 |   39.154 |   153.24 |
|   500 |   2500 |    4 |12000 |    0.567 |3525.79 |   46.865 |   213.38 |   47.432 |   252.99 |
|   500 |   2500 |    8 |24000 |    1.139 |3510.81 |   58.651 |   341.00 |   59.791 |   401.40 |
|   500 |   2500 |   16 |48000 |    2.415 |3312.20 |   77.793 |   514.19 |   80.208 |   598.44 |
|   500 |   2500 |   32 |96000 |    5.410 |2957.52 |145.522 |   549.74 |150.932 |   636.05 |

llama_perf_context_print:      load time =    2742.79 ms
llama_perf_context_print: prompt eval time =377652.87 ms / 186516 tokens (    2.02 ms per token,   493.88 tokens per second)
llama_perf_context_print:      eval time =   24784.80 ms /2500 runs   (    9.91 ms per token,   100.87 tokens per second)
llama_perf_context_print:       total time =405224.93 ms / 189016 tokens

T.JOHN 发表于 2025-2-4 10:30

cloud 发表于 2025-1-24 23:25
comfy+flux fp8+nf4我自己配置的 40的对比数据我都提前跑了 但50根本跑不了

https://zhuanlan.zhihu.com ...

地雷云,你要是不部署TRT,9090都测不出性能阉割。

参考:这是我两年前写的如何跑katago,其实TRT其实不依赖CUDA能直接跑。两者不相关,TRT运行速度远高于CUDA。
https://www.chiphell.com/thread-2486435-1-1.html

方案:至于TRT怎么在comfyui里面调:参考官方库 https://github.com/comfyanonymous/ComfyUI_TensorRT

他主项目有65.7k的star,这个页面只有500star,可见大家只会拿来主义打包直接用,都没几个人使用过TRT插件。

我能肯定你100%测错的,根本没有测出算力限制,因为你的截图model的节点就没有TRT_loader。而且你一定要测fp4才能测出显著阉割差距。

网上90%测评人都不懂这玩意,他们只会跑简单的benchmark。唯一不确定的是极客湾,他们理论上不应该会犯这种错误。另外我相信,老黄说阉了就肯定阉了,没什么好讨价还价的。
https://p.sda1.dev/21/788e9ee9e2ebb27d278a791676f57c1f/TRT.png

我輩樹である 发表于 2025-2-4 10:58

现在对阉割的说法都是源于本坛,但似乎没人复现?

一个是3秒锁算力,这个锁应该是指锁到2300t而非锁到0吧。
第二个就是多卡锁互联。这个语境也不清楚,是只普通的将一个模型分到2个gpu上还是值有dma的gpudirect功能?

第一个其实只要跑一个空转的mma就行了(写个核函数,只初始化一组数据,不停的wmma,不回写任何数据。这样不会导致显存带宽overhead),把tensor core跑满,具体代码可以问ai比我写得好。

第二个就需要多张显卡跑一个nccl通讯,4090是需要patch的,5090显然patch还没有出,当前只支持到linux的565.57.01.

期待有人测试后贴结果我们继续分析。

cloud 发表于 2025-2-4 12:05

T.JOHN 发表于 2025-2-4 10:30
地雷云,你要是不部署TRT,9090都测不出性能阉割。

参考:这是我两年前写的如何跑katago,其实TRT其实不 ...

sd时代我跑过trt

之前50媒体沟通会演示机 comfy是配置好的trt 其实应该拷出来

gyc 发表于 2025-2-4 13:33

首批 5090D已经出了, 有没有朋友测试过 性能到底差多少?

平安是福 发表于 2025-2-5 08:55

T.JOHN 发表于 2025-2-4 10:30
地雷云,你要是不部署TRT,9090都测不出性能阉割。

参考:这是我两年前写的如何跑katago,其实TRT其实不 ...

跑个fp16版的flux试试压力。。。fp8版的更容易蹦手

do0wmt1 发表于 2025-2-6 08:42

看来拿到卡的都不太懂AI训练啊,确实,炼丹是少数大牛干的事情

ypsdz 发表于 2025-2-6 11:28

cloud 发表于 2025-2-6 11:32

ypsdz 发表于 2025-2-6 11:28
兄弟那推理绘图能用吗?

最近更新comfyui+flux可以用 但nf4还不行

ypsdz 发表于 2025-2-6 15:45

页: 1 [2]
查看完整版本: B站UP关于5090和5090D的AI性能基准测试