肯定是驱动不一样,nv被战未来了。
你这是用最新驱动跑的么,感觉是amd提前搞了优化玩偷袭了 卧槽老黄为了挣钱,公然欺天了?这不怕被国会老爷们砍吗? fgfdhgg 发表于 2025-2-3 11:55
你这是用最新驱动跑的么,感觉是amd提前搞了优化玩偷袭了
底下小字不都写着么 我輩樹である 发表于 2025-2-3 10:49
deepseek的,跑32b还是很溜。
请问有测试多模态模型吗? 大概什么性能? 本帖最后由 我輩樹である 于 2025-2-3 14:15 编辑
gyc 发表于 2025-2-3 14:03
请问有测试多模态模型吗? 大概什么性能?
回错了。
那个是知乎上的,有水印,不是我测的,我没5090 fgfdhgg 发表于 2025-2-3 11:55
你这是用最新驱动跑的么,感觉是amd提前搞了优化玩偷袭了
知乎上的,我是转贴 neavo 发表于 2025-1-25 12:30
llama.cpp bench 一键包
链接: https://pan.baidu.com/s/1vG-liNmqxvNckMfKrxFTdA?pwd=tc4n 提取码: tc ...
main: n_kv_max = 65536, n_batch = 2048, n_ubatch = 512, flash_attn = 1, is_pp_shared = 0, n_gpu_layers = 99, n_threads = 14, n_threads_batch = 14
| PP | TG | B | N_KV | T_PP s | S_PP t/s | T_TG s | S_TG t/s | T s | S t/s |
|-------|--------|------|--------|----------|----------|----------|----------|----------|----------|
| 500 | 1500 | 1 | 2000 | 10.114 | 49.43 | 20.584 | 72.87 | 30.698 | 65.15 |
| 500 | 1500 | 2 | 4000 | 0.275 |3632.59 | 23.171 | 129.47 | 23.447 | 170.60 |
| 500 | 1500 | 4 | 8000 | 0.565 |3537.18 | 26.563 | 225.88 | 27.128 | 294.90 |
| 500 | 1500 | 8 |16000 | 1.150 |3478.43 | 32.223 | 372.40 | 33.373 | 479.43 |
| 500 | 1500 | 16 |32000 | 2.397 |3337.18 | 53.382 | 449.59 | 55.779 | 573.69 |
| 500 | 1500 | 32 |64000 | 5.422 |2950.76 | 73.411 | 653.85 | 78.834 | 811.84 |
llama_perf_context_print: load time = 38099.04 ms
llama_perf_context_print: prompt eval time =263440.83 ms / 124516 tokens ( 2.12 ms per token, 472.65 tokens per second)
llama_perf_context_print: eval time = 20580.05 ms /1500 runs ( 13.72 ms per token, 72.89 tokens per second)
llama_perf_context_print: total time =287359.37 ms / 126016 tokens
main: n_kv_max = 98304, n_batch = 2048, n_ubatch = 512, flash_attn = 1, is_pp_shared = 0, n_gpu_layers = 99, n_threads = 14, n_threads_batch = 14
| PP | TG | B | N_KV | T_PP s | S_PP t/s | T_TG s | S_TG t/s | T s | S t/s |
|-------|--------|------|--------|----------|----------|----------|----------|----------|----------|
| 500 | 2500 | 1 | 3000 | 0.170 |2932.69 | 24.793 | 100.84 | 24.963 | 120.18 |
| 500 | 2500 | 2 | 6000 | 0.286 |3494.29 | 38.868 | 128.64 | 39.154 | 153.24 |
| 500 | 2500 | 4 |12000 | 0.567 |3525.79 | 46.865 | 213.38 | 47.432 | 252.99 |
| 500 | 2500 | 8 |24000 | 1.139 |3510.81 | 58.651 | 341.00 | 59.791 | 401.40 |
| 500 | 2500 | 16 |48000 | 2.415 |3312.20 | 77.793 | 514.19 | 80.208 | 598.44 |
| 500 | 2500 | 32 |96000 | 5.410 |2957.52 |145.522 | 549.74 |150.932 | 636.05 |
llama_perf_context_print: load time = 2742.79 ms
llama_perf_context_print: prompt eval time =377652.87 ms / 186516 tokens ( 2.02 ms per token, 493.88 tokens per second)
llama_perf_context_print: eval time = 24784.80 ms /2500 runs ( 9.91 ms per token, 100.87 tokens per second)
llama_perf_context_print: total time =405224.93 ms / 189016 tokens cloud 发表于 2025-1-24 23:25
comfy+flux fp8+nf4我自己配置的 40的对比数据我都提前跑了 但50根本跑不了
https://zhuanlan.zhihu.com ...
地雷云,你要是不部署TRT,9090都测不出性能阉割。
参考:这是我两年前写的如何跑katago,其实TRT其实不依赖CUDA能直接跑。两者不相关,TRT运行速度远高于CUDA。
https://www.chiphell.com/thread-2486435-1-1.html
方案:至于TRT怎么在comfyui里面调:参考官方库 https://github.com/comfyanonymous/ComfyUI_TensorRT
他主项目有65.7k的star,这个页面只有500star,可见大家只会拿来主义打包直接用,都没几个人使用过TRT插件。
我能肯定你100%测错的,根本没有测出算力限制,因为你的截图model的节点就没有TRT_loader。而且你一定要测fp4才能测出显著阉割差距。
网上90%测评人都不懂这玩意,他们只会跑简单的benchmark。唯一不确定的是极客湾,他们理论上不应该会犯这种错误。另外我相信,老黄说阉了就肯定阉了,没什么好讨价还价的。
https://p.sda1.dev/21/788e9ee9e2ebb27d278a791676f57c1f/TRT.png 现在对阉割的说法都是源于本坛,但似乎没人复现?
一个是3秒锁算力,这个锁应该是指锁到2300t而非锁到0吧。
第二个就是多卡锁互联。这个语境也不清楚,是只普通的将一个模型分到2个gpu上还是值有dma的gpudirect功能?
第一个其实只要跑一个空转的mma就行了(写个核函数,只初始化一组数据,不停的wmma,不回写任何数据。这样不会导致显存带宽overhead),把tensor core跑满,具体代码可以问ai比我写得好。
第二个就需要多张显卡跑一个nccl通讯,4090是需要patch的,5090显然patch还没有出,当前只支持到linux的565.57.01.
期待有人测试后贴结果我们继续分析。 T.JOHN 发表于 2025-2-4 10:30
地雷云,你要是不部署TRT,9090都测不出性能阉割。
参考:这是我两年前写的如何跑katago,其实TRT其实不 ...
sd时代我跑过trt
之前50媒体沟通会演示机 comfy是配置好的trt 其实应该拷出来 首批 5090D已经出了, 有没有朋友测试过 性能到底差多少? T.JOHN 发表于 2025-2-4 10:30
地雷云,你要是不部署TRT,9090都测不出性能阉割。
参考:这是我两年前写的如何跑katago,其实TRT其实不 ...
跑个fp16版的flux试试压力。。。fp8版的更容易蹦手 看来拿到卡的都不太懂AI训练啊,确实,炼丹是少数大牛干的事情 ypsdz 发表于 2025-2-6 11:28
兄弟那推理绘图能用吗?
最近更新comfyui+flux可以用 但nf4还不行
页:
1
[2]