找回密码
 加入我们
搜索
      
查看: 5878|回复: 8

[显卡] 9070XT vs 7900XTX vs RTX4090 INT4算力对比

[复制链接]
发表于 2025-3-5 05:18 | 显示全部楼层 |阅读模式
本帖最后由 夏目梓鱼 于 2025-3-5 05:41 编辑

INT4量化模型Q4_K_M【权重分为高精度(4bit对称)和低精度(4bit非对称)部分】
都是32B的INT4量化模型,CU核只有96个的7900XTX,为什么DeepSeek跑的成绩和4090相当。


【1】官方测评
WIGNI)IE7KF5KV]M0W2~UIU.png       39I0JECB2A2]}$T_R$@C@LK.png
AMD测评     英伟达测评(图示7900XTX约25)

点击放大


                                                                           


【2】网友测评

SeaworthinessNo8383@reddit
----
Benchmarks from my chat history were these:

4090: 36/sec XTX: 24.49/sec 3090: 32/sec
_isly(700646555)@B站

7900XTX本地部署deepseek32b 36tok/s

【3】CU【Compute Units】单元能力(RDNA3对比RNDA4)

CG`9}F``(9BXKDEOBCP1DNN.png }DCW2ONMAIDO4_$@JUO}LFH.png
官图:ML(FP16 dense matrix)性能,即Machine Learning机器学习密集矩阵。
官文:FP16性能是上代的两倍,INT8性能是四倍,FP16稀疏性能是四倍,INT8稀疏性能更是达到了八倍,还新增了对FP8精度格式的原生支持。


【4】9070XT vs 7900XTX vs RTX4090 INT4算力对比
9070XT共64CU,AI算力,INT4 779/1557 TOPs(稠密/稀疏)。
--换算单个CU能力,12.17/24.32。按照【3】的对比。得出RDNA3单个CU能力,6.08/12.17
7900XTX共96CU,INT4算力应该是 583.88/1167.75
4090查官方说明书 Ada Lovelace 架构,INT4算力是1321.2/2642.42。


INT4算力(TOPs)
稠密Dense稀疏Sparsity
9070XT(64CU)
779 1557
7900XTX(96CU)
583.88 1167.75
4090(512Tensor Cores) 1321.2 2642.42
4090/2效能 615 1321


【5】总结
各个厂商的性能数据,算法各不相同,算不懂。
硬拗的话,INT4算力4090官方性能除一半,和网上的大语言模型推理(单看deepseek)实测性能更接近。
583.88/615=95%,和AMD测评结果相似。
跑4bit量化模型的推理能力和4090差不了太多。



发表于 2025-3-5 07:19 | 显示全部楼层
fp/bf16性能怎么样呢
发表于 2025-3-5 08:43 | 显示全部楼层
宣传材料而已,商家永远懂得怎么用专属于他的口径测出自己NB的结果

用户看个热闹罢了,真用AI做生产力的用户,不会看商家自己的宣传,功课做的足足的

这些宣传都是给喜欢看热闹激发自己购买欲的用户,买来也是臭打游戏,AI个毛线啊AI~~~
发表于 2025-3-5 09:51 | 显示全部楼层
所以Windows上的ROCm好使了吗?能平替N卡推理和训练我就换了
发表于 2025-3-5 09:59 | 显示全部楼层
1lch2 发表于 2025-3-5 09:51
所以Windows上的ROCm好使了吗?能平替N卡推理和训练我就换了

不完全好使,就算是WSL2还有bug和性能损耗,最后还是得Linux
发表于 2025-3-5 10:30 | 显示全部楼层
本帖最后由 PolyMorph 于 2025-3-5 10:40 编辑

rdna3 矩阵是simd算的,FP16/BF16/INT8具有相同的峰值吞吐量,是 FP32 单精度浮点吞吐量的两倍,int4是4倍,也就是1024 ops/cu

1000044824.png
发表于 2025-3-5 14:20 | 显示全部楼层
5090D呢
发表于 2025-3-5 14:36 | 显示全部楼层
既然能玩那肯定是既要又要的
 楼主| 发表于 2025-3-11 00:01 | 显示全部楼层
1lch2 发表于 2025-3-5 09:51
所以Windows上的ROCm好使了吗?能平替N卡推理和训练我就换了

网上说9070不出32G。等未来9080GRE之类的东西再说?
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-21 10:24 , Processed in 0.012932 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表