夏目梓鱼 发表于 2025-3-5 05:18

9070XT vs 7900XTX vs RTX4090 INT4算力对比

本帖最后由 夏目梓鱼 于 2025-3-5 05:41 编辑

INT4量化模型Q4_K_M【权重分为高精度(4bit对称)和低精度(4bit非对称)部分】
都是32B的INT4量化模型,CU核只有96个的7900XTX,为什么DeepSeek跑的成绩和4090相当。


【1】官方测评

      
AMD测评   英伟达测评(图示7900XTX约25)

点击放大


                                                                           


【2】网友测评

SeaworthinessNo8383@reddit
----
Benchmarks from my chat history were these:

4090: 36/sec XTX: 24.49/sec 3090: 32/sec
_isly(700646555)@B站

7900XTX本地部署deepseek32b 36tok/s
【3】CU【Compute Units】单元能力(RDNA3对比RNDA4)



官图:ML(FP16 dense matrix)性能,即Machine Learning机器学习密集矩阵。
官文:FP16性能是上代的两倍,INT8性能是四倍,FP16稀疏性能是四倍,INT8稀疏性能更是达到了八倍,还新增了对FP8精度格式的原生支持。


【4】9070XT vs 7900XTX vs RTX4090 INT4算力对比
9070XT共64CU,AI算力,INT4 779/1557 TOPs(稠密/稀疏)。
--换算单个CU能力,12.17/24.32。按照【3】的对比。得出RDNA3单个CU能力,6.08/12.17
7900XTX共96CU,INT4算力应该是 583.88/1167.75
4090查官方说明书 Ada Lovelace 架构,INT4算力是1321.2/2642.42。


INT4算力(TOPs)
稠密Dense稀疏Sparsity
9070XT(64CU)
779 1557
7900XTX(96CU)
583.88 1167.75
4090(512Tensor Cores) 1321.2 2642.42
4090/2效能 615 1321


【5】总结
各个厂商的性能数据,算法各不相同,算不懂。
硬拗的话,INT4算力4090官方性能除一半,和网上的大语言模型推理(单看deepseek)实测性能更接近。
583.88/615=95%,和AMD测评结果相似。
跑4bit量化模型的推理能力和4090差不了太多。



平安是福 发表于 2025-3-5 07:19

fp/bf16性能怎么样呢

glader 发表于 2025-3-5 08:43

宣传材料而已,商家永远懂得怎么用专属于他的口径测出自己NB的结果

用户看个热闹罢了,真用AI做生产力的用户,不会看商家自己的宣传,功课做的足足的

这些宣传都是给喜欢看热闹激发自己购买欲的用户,买来也是臭打游戏,AI个毛线啊AI~~~

1lch2 发表于 2025-3-5 09:51

所以Windows上的ROCm好使了吗?能平替N卡推理和训练我就换了

德德德德德古拉 发表于 2025-3-5 09:59

1lch2 发表于 2025-3-5 09:51
所以Windows上的ROCm好使了吗?能平替N卡推理和训练我就换了

不完全好使,就算是WSL2还有bug和性能损耗,最后还是得Linux

PolyMorph 发表于 2025-3-5 10:30

本帖最后由 PolyMorph 于 2025-3-5 10:40 编辑

rdna3 矩阵是simd算的,FP16/BF16/INT8具有相同的峰值吞吐量,是 FP32 单精度浮点吞吐量的两倍,int4是4倍,也就是1024 ops/cu

林间有新绿 发表于 2025-3-5 14:20

5090D呢

cicero13 发表于 2025-3-5 14:36

既然能玩那肯定是既要又要的[狂笑]

夏目梓鱼 发表于 2025-3-11 00:01

1lch2 发表于 2025-3-5 09:51
所以Windows上的ROCm好使了吗?能平替N卡推理和训练我就换了

网上说9070不出32G。等未来9080GRE之类的东西再说?
页: [1]
查看完整版本: 9070XT vs 7900XTX vs RTX4090 INT4算力对比