B站UP关于5090和5090D的AI性能基准测试
[偷笑] 某装机猿的,看来是误差级别的?[偷笑]
不过测试归测试,实际长什么样子谁知道 装机员还推测,是老黄故意在前期测试阶段不砍(/▽╲),后期卖出去了再暗砍 其实这玩意你得考虑个事。
再把4090和4090D加进去,和5090/D对比,会不会也一样。 这种程度的测试根本跑不满这种级别的卡 。。。 其实这玩意你得考虑个事。
再把4090和4090D加进去,和5090/D对比,会不会也一样。
+1。对照试验自变量因变量不足,没有说服力的......有本事最好把驱动和测试的python脚本也放出来 没有写清楚软件环境也没有4090对比,说明不了问题啊。4090在刚出前一个月的时候pytorch都还没更新支持最新的cuda版本,跑起来都跑不满的。 本帖最后由 cloud 于 2025-1-24 23:07 编辑
lh4357 发表于 2025-1-24 22:48
其实这玩意你得考虑个事。
再把4090和4090D加进去,和5090/D对比,会不会也一样。 ...
我测了相同项目 可以参考下
目前ai开源的基本都跑不了 基本只能跑nv给的
我自己把mlperf自己改跑了半个小时 性能和5090一样 TONY大叔的测试 DLSS4 4倍帧生成的情况下,5090D比5090少个5-8帧,这还是90D是夜神,90是TUF的情况下,如果都是夜神差距更大 cloud 发表于 2025-1-24 23:04
我测了相同项目 可以参考下
目前ai开源的基本都跑不了 基本只能跑nv给的
那这玩意锁啥了,锁了个寂寞? cloud 发表于 2025-1-24 23:04
我测了相同项目 可以参考下
目前ai开源的基本都跑不了 基本只能跑nv给的
llama.cpp vllm 啥的能跑了吗,我看前几天就有支持 blackwell 的 PR 了 cloud 发表于 2025-1-24 23:04
我测了相同项目 可以参考下
目前ai开源的基本都跑不了 基本只能跑nv给的
是不是可以这么认为 跑推理基本没影响...限制的是学习算力 这是让大家去买 Doge 版吗? hsy-x 发表于 2025-1-24 23:13
是不是可以这么认为 跑推理基本没影响...限制的是学习算力
我尝试跑之前我跑色图的SD1.5 lora训练 跑不了 只能以后再说了 neavo 发表于 2025-1-24 23:09
llama.cpp vllm 啥的能跑了吗,我看前几天就有支持 blackwell 的 PR 了
pr明显是nv安排的 我觉得和真实环境还是有差别
llama我昨天晚上下了但没时间折腾了 本帖最后由 welsmann 于 2025-1-24 23:23 编辑
cloud 发表于 2025-1-24 23:04
我测了相同项目 可以参考下
目前ai开源的基本都跑不了 基本只能跑nv给的
那么也就是说nv提供的测试benchmark。并不代表全场景下的所有的性能都是5090比4090快那么一大截。是否存在一种可能,单位的这个优化是有水分的,也就是像你最后的那句话这样说,如果把40系平台下面按同样的方法魔改,实际上也能跑到。接近5090和dog版的表现?
如果可以在5090到网上下一个经常流传的flux一键训练包。比比看在同样的数据集下面。到底fp8能快多少?
补充
看来我发这个帖子的时候,上面已经有回复了
那么也就是说nv提供的驱动,为了防止真实情况“露馅”特地针对某些场景进行了锁定。可能 flux也不行……只有等到dog版。通用驱动出来才能摘掉他的帽子。 welsmann 发表于 2025-1-24 23:19
那么也就是说nv提供的测试benchmark。并不代表全场景下的所有的性能都是5090比4090快那么一大截。是否存 ...
comfy+flux fp8+nf4我自己配置的 40的对比数据我都提前跑了 但50根本跑不了
https://zhuanlan.zhihu.com/p/17058910503 5090d 支持fp4
4090d 不支持fp4 cloud 发表于 2025-1-24 23:18
pr明显是nv安排的 我觉得和真实环境还是有差别
llama我昨天晚上下了但没时间折腾了 ...
全量微调llama3.2-1b试试 本帖最后由 neavo 于 2025-1-24 23:55 编辑
cloud 发表于 2025-1-24 23:18
pr明显是nv安排的 我觉得和真实环境还是有差别
llama我昨天晚上下了但没时间折腾了 ...
你需要的话我可以帮你做个 llama.cpp 的 bench 的一键包,只要双击就可以运行出结果
说实话图上这些ai测试都没啥意义,因为跟实际的高负载情景差的太远了
典型的高负债情景是 Linux下主流引擎(vllm llama.cpp sglang 等)上的大 batch_sizeLLM 推理和训练,这也是那些被回收的 4090 唯一的用途 airforce18 发表于 2025-1-24 23:06
TONY大叔的测试 DLSS4 4倍帧生成的情况下,5090D比5090少个5-8帧,这还是90D是夜神,90是TUF的情况下,如果 ...
DLSS4 4倍帧数才少5-8,那正常就少1-2帧了。(PS 夜神和TUF性能不会有什么区别,可能噪声和温度有点区别) neavo 发表于 2025-1-24 23:51
你需要的话我可以帮你做个 llama.cpp 的 bench 的一键包,只要双击就可以运行出结果
说实话图上这些ai测 ...
好 方便的话 你做了我试试 阉割了之后游戏性能是要弱一点,AI功能几乎全割,这是意料之中,所以有啥纠结的呢?可能唯一纠结的就是定价问题吧[偷笑]
再来个极巴湾的比较一下 cloud 发表于 2025-1-25 08:20
好 方便的话 你做了我试试
llama.cpp bench 一键包
链接: https://pan.baidu.com/s/1vG-liNmqxvNckMfKrxFTdA?pwd=tc4n 提取码: tc4n
其实应该测训练,毕竟限制 AI 训练才是制裁的主要目的,也存在只锁训练不锁推理的可能性
但是训练测试做不了一键包,就先测测推理吧 neavo 发表于 2025-1-25 12:30
llama.cpp bench 一键包
链接: https://pan.baidu.com/s/1vG-liNmqxvNckMfKrxFTdA?pwd=tc4n 提取码: tc ...
好 收到 我没会员 明年应该下的完 neavo 发表于 2025-1-25 12:30
llama.cpp bench 一键包
链接: https://pan.baidu.com/s/1vG-liNmqxvNckMfKrxFTdA?pwd=tc4n 提取码: tc ...
5080今天跑了下 跑完发现窗口关了 没看见结果
我在bat后面加了个pause
deepseek的,跑32b还是很溜。 我輩樹である 发表于 2025-2-3 10:49
deepseek的,跑32b还是很溜。
怎么回事,AMD不是发图说小模型7900xtx爆杀4090么,怎么差距这么大,你一定是A黑[偷笑]
https://img.expreview.com/news/2025/01/30/RX_7900XXTX_DeepSeek_R1.jpg fgfdhgg 发表于 2025-2-3 11:44
怎么回事,AMD不是发图说小模型7900xtx爆杀4090么,怎么差距这么大,你一定是A黑
...
肯定是驱动不一样,nv被战未来了。[恶魔]
页:
[1]
2