9070XT vs 7900XTX vs RTX4090 INT4算力对比

夏目梓鱼 发表于 2025-3-5 05:18

本帖最后由夏目梓鱼于 2025-3-5 05:41 编辑

INT4量化模型Q4_K_M【权重分为高精度（4bit对称）和低精度（4bit非对称）部分】
都是32B的INT4量化模型，CU核只有96个的7900XTX，为什么DeepSeek跑的成绩和4090相当。

【1】官方测评

AMD测评英伟达测评（图示7900XTX约25）

点击放大

【2】网友测评

SeaworthinessNo8383@reddit
----
Benchmarks from my chat history were these:

4090: 36/sec XTX: 24.49/sec 3090: 32/sec
_isly（700646555）@B站

7900XTX本地部署deepseek32b 36tok/s
【3】CU【Compute Units】单元能力（RDNA3对比RNDA4）

官图：ML（FP16 dense matrix）性能，即Machine Learning机器学习密集矩阵。
官文：FP16性能是上代的两倍，INT8性能是四倍，FP16稀疏性能是四倍，INT8稀疏性能更是达到了八倍，还新增了对FP8精度格式的原生支持。

【4】9070XT vs 7900XTX vs RTX4090 INT4算力对比
9070XT共64CU，AI算力，INT4 779/1557 TOPs(稠密/稀疏)。
--换算单个CU能力，12.17/24.32。按照【3】的对比。得出RDNA3单个CU能力，6.08/12.17
7900XTX共96CU，INT4算力应该是 583.88/1167.75
4090查官方说明书 Ada Lovelace 架构，INT4算力是1321.2/2642.42。

INT4算力（TOPs）
稠密Dense稀疏Sparsity
9070XT（64CU）
779 1557
7900XTX（96CU）
583.88 1167.75
4090（512Tensor Cores） 1321.2 2642.42
4090/2效能 615 1321

【5】总结
各个厂商的性能数据，算法各不相同，算不懂。
硬拗的话，INT4算力4090官方性能除一半，和网上的大语言模型推理（单看deepseek）实测性能更接近。
583.88/615=95%，和AMD测评结果相似。
跑4bit量化模型的推理能力和4090差不了太多。

平安是福 发表于 2025-3-5 07:19

fp/bf16性能怎么样呢

glader 发表于 2025-3-5 08:43

宣传材料而已，商家永远懂得怎么用专属于他的口径测出自己NB的结果

用户看个热闹罢了，真用AI做生产力的用户，不会看商家自己的宣传，功课做的足足的

这些宣传都是给喜欢看热闹激发自己购买欲的用户，买来也是臭打游戏，AI个毛线啊AI~~~

1lch2 发表于 2025-3-5 09:51

所以Windows上的ROCm好使了吗？能平替N卡推理和训练我就换了

德德德德德古拉 发表于 2025-3-5 09:59

1lch2 发表于 2025-3-5 09:51
所以Windows上的ROCm好使了吗？能平替N卡推理和训练我就换了

不完全好使，就算是WSL2还有bug和性能损耗，最后还是得Linux

PolyMorph 发表于 2025-3-5 10:30

本帖最后由 PolyMorph 于 2025-3-5 10:40 编辑

rdna3 矩阵是simd算的，FP16/BF16/INT8具有相同的峰值吞吐量，是 FP32 单精度浮点吞吐量的两倍，int4是4倍，也就是1024 ops/cu

林间有新绿 发表于 2025-3-5 14:20

5090D呢

cicero13 发表于 2025-3-5 14:36

既然能玩那肯定是既要又要的[狂笑]

夏目梓鱼 发表于 2025-3-11 00:01

1lch2 发表于 2025-3-5 09:51
所以Windows上的ROCm好使了吗？能平替N卡推理和训练我就换了

网上说9070不出32G。等未来9080GRE之类的东西再说？

页: [1]

Chiphell - 分享与交流用户体验's Archiver

9070XT vs 7900XTX vs RTX4090 INT4算力对比