q3again0605 发表于 2025-2-6 13:05

lh4357 发表于 2025-2-6 12:21
不了解这啥补丁,我只是找了个arch的安装盘进去看了下你说的这个。

https://github.com/tinygrad/open-gpu-kernel-modules/tree/550.54.15-p2p。可以看看这个,效果就是让官方不支持的p2p但有large bar的显卡支持到p2p,当然还是有些兼容性问题。

buxiang110 发表于 2025-2-6 13:16

T.JOHN 发表于 2025-2-6 10:06
这个up主是小白,这视频是浪费生命,blackwell很多框架正在适配中,目前跑不了正常

...

没错。                     

CopperBean 发表于 2025-2-6 15:14

ainomelody 发表于 2025-2-6 09:44
如果真是这样的话出d的意义在哪啊

消化不合格芯片,老黄赢麻了

T.JOHN 发表于 2025-2-6 21:54

lh4357 发表于 2025-2-6 10:25
最神奇的事情是,这都发售快一星期了,测个限制还这么费劲。。外加一堆软件不支持。

那么发售前10天就能测 ...

你说的对,我写错了。根据实测,老黄没割。

zhuifeng88 发表于 2025-2-6 21:57

本帖最后由 zhuifeng88 于 2025-2-6 22:18 编辑

T.JOHN 发表于 2025-2-6 09:56
首先推理工作负载不低,打满tgp没问题。其次推理和训练对gpu来说没区别,它不过是执行逻辑计算罢了。训练 ...

大部分推理框架下weight only量化模型推理打满tgp和tensorcore负载不到10%是不冲突的

更进一步的 哪怕不量化大部分推理框架都没法把tensorcore负载用上20%就会打满tgp

另外moe和显卡的2:4结构化稀疏mm扯不上半点关系...

举个例子 随便用llama.cpp跑个128K长的量化模型prefill 看卡1 tgp满 tensorcore负载3%


然后bf16不量化的 其他一样 tensorcore负载在tgp撞死的前提下也只到10%多


说的重点...你这多少有点凭想象乱解释

T.JOHN 发表于 2025-2-6 22:22

zhuifeng88 发表于 2025-2-6 21:57
大部分推理框架下weight only量化模型推理打满tgp和tensorcore负载不到10%是不冲突的

更进一步的 哪怕不 ...

不需要想象啊,前面不是说了么,你要考虑real world usage。极客湾用nv演示的flux没测出来区别。如果现有的软件测不出区别,那就是没有区别,在5090/5090D生命周期内,对现在生产力软件和ai来说,所有性能都是一样的话,就等于没有阉割。
如果不明白rwu的话,再举个简单的例子方便大家理解如何设计产品。老黄设计了辆时速260的5090,而4090有时速200,目前全世界的道路车速上限是140。5年以后通过基建的改善和法规的放宽,出现了限速210的道路,那就才能体现4090和5090区别。

最后moe的稀疏计算的关系不是我说的。你有空读下论文,不要想当然。地址我给你了,或者你show下你发的论文说明两者没关系
MoE layers use sparse computing to selectively activate only a subset of "experts" (neural network components) for each input, which can significantly reduce computational costs

http://arxiv.org/pdf/2502.02581

zhuifeng88 发表于 2025-2-6 22:24

本帖最后由 zhuifeng88 于 2025-2-6 22:28 编辑

T.JOHN 发表于 2025-2-6 22:22
不需要想象啊,前面不是说了么,你要考虑real world usage。极客湾用nv演示的flux没测出来区别。如果现有 ...

这个论文早看过了 这里说的稀疏和2:4结构化稀疏根本就不是一回事, 你都不看内容就看个标题...


你都说了"MoE layers use sparse computing to selectively activate only a subset of "experts"


看来你是真不知道2:4结构化稀疏是个什么东西


你的左矩阵在严格满足每4个元素中有2个为0的前提下, 可以加速计算

T.JOHN 发表于 2025-2-6 22:28

zhuifeng88 发表于 2025-2-6 22:24
这个论文早看过了 这里说的稀疏和2:4结构化稀疏根本就不是一回事

所以你是英语理解能力有问题很是中文理解能力有问题?,which can significantly reduce computational costs 我引用这篇论文给的观点,然后你说和我说的不是一回东西,怎么连我自己都不知道呢?
请问你同意不同意这段英文表述?如果同意将这段英文翻译成中文,然后我贴到主帖,然后我把我错误的中文言论放那里,让只会中文的人自行理解。
你满意了不?现在去翻译吧

zhuifeng88 发表于 2025-2-6 22:29

本帖最后由 zhuifeng88 于 2025-2-6 22:37 编辑

T.JOHN 发表于 2025-2-6 22:28
所以你是英语理解能力有问题很是中文理解能力有问题?,which can significantly reduce computational co ...

显卡的硬件稀疏计算加速是"你的左矩阵在严格满足每4个元素中有2个为0的前提下, 可以加速计算"

你发的东西是稀疏计算, 但你不会觉得稀疏计算只有一种稀疏方式吧?

还是那句话...你看来都没了解过显卡的2:4结构化稀疏是个什么东西...全凭想象

这是你发的, 下面是nvidia的硬件稀疏, 都不是一个维度的东西 你要不要再想想自己在说什么

YsHaNg 发表于 2025-2-6 23:03

T.JOHN 发表于 2025-2-6 02:04
多卡互联分有两个问题,问题1. 把模型塞到不同显卡的显存中,lamma.cpp就能做到,塞到内存中都没问题,无 ...

至少moe可以全塞多卡里 激活参数在主运算卡推理

T.JOHN 发表于 2025-2-6 23:23

zhuifeng88 发表于 2025-2-6 22:29
显卡的硬件稀疏计算加速是"你的左矩阵在严格满足每4个元素中有2个为0的前提下, 可以加速计算"

你发的东 ...

结论:稀疏计算有助于提高moe效率。我把论文发给你了,这篇论文发出来还不到24小时,你“早”就读过了,请问你“早”在它发出来之前读的吗?
方法:怎么清洗模型结构对齐到2,4。主楼第一版就引用了tensorflow官网的文章发给所有人了。
你是不是觉得只有当论文作者把论文的稀疏举例做成2,4结构,才能说明英伟达的硬件稀疏可以被应用到moe的稀疏计算上?你当年怎么读的大学?别说举一反三了,连调整数据结构都不会,我只能替你线代老师感到悲哀。
最后,别对线的时候编辑自己帖子。我对线的时候从不怕被打脸,错了就是错了,不需要挽尊。

q3again0605 发表于 2025-2-6 23:24

YsHaNg 发表于 2025-2-6 23:03
至少moe可以全塞多卡里 激活参数在主运算卡推理

这怎么设定?

zhuifeng88 发表于 2025-2-6 23:34

T.JOHN 发表于 2025-2-6 23:23
结论:稀疏计算有助于提高moe效率。我把论文发给你了,这篇论文发出来还不到24小时,你“早”就读过了, ...

编辑是补充内容, 不希望把楼弄得很长而已, 压根就没修改已有的内容

对齐到2:4那是无关的工作, 和文章说的稀疏发生的位置就不一样, 你发的paper是在gather/redufce阶段的稀疏 对齐到2:4是mm的事情 一个在说通信一个在说计算你还调整数据结构, 瞎说以为别人都看不懂

YsHaNg 发表于 2025-2-6 23:36

q3again0605 发表于 2025-2-6 15:24
这怎么设定?

用gpu visibility all全暴露就能显存全部叠加 给模型配置num_gpu 还有flash_attention会让cuda level最高的卡跑 k_v cache参数也有同样效果

manwomans 发表于 2025-2-6 23:46

太专业了
我是不是可以理解为目前90和90d的ai推理算力一样
训练是否有区别现在没法验证

ScjMitsui 发表于 2025-2-7 03:22

这么说,跑深度学习炼丹 5090和5090d性能一样?

Illidan2004 发表于 2025-2-25 13:26

pdvc 发表于 2025-2-6 10:21
RIFE用的TRT,不知道能不能测出来区别,不过目前win下还是10.7版。

对 就像看跑RIFEESRGAN这种有多少影响

hred9D 发表于 2025-3-8 17:48

x想多了,5090D和5090的拆解视频截图,两张显卡的核心代码都不同!不知道GPU-Z为什么要显示为一样的?

hred9D 发表于 2025-3-8 17:52

视频可以到B站看得到的

nickywin 发表于 2025-3-8 17:54

我有问题请教,nvlink需不需要主板支持?双卡普通的x570两个x8能用不?

buxp 发表于 2025-3-8 17:57

结论就是单卡没区别多卡不行呗?
页: 1 [2]
查看完整版本: 检查算力限制条件,理论上5090D至少没割推理算力