9070XT vs 7900XTX vs RTX4090 INT4算力对比
本帖最后由 夏目梓鱼 于 2025-3-5 05:41 编辑INT4量化模型Q4_K_M【权重分为高精度(4bit对称)和低精度(4bit非对称)部分】
都是32B的INT4量化模型,CU核只有96个的7900XTX,为什么DeepSeek跑的成绩和4090相当。
【1】官方测评
AMD测评 英伟达测评(图示7900XTX约25)
点击放大
【2】网友测评
SeaworthinessNo8383@reddit
----
Benchmarks from my chat history were these:
4090: 36/sec XTX: 24.49/sec 3090: 32/sec
_isly(700646555)@B站
7900XTX本地部署deepseek32b 36tok/s
【3】CU【Compute Units】单元能力(RDNA3对比RNDA4)
官图:ML(FP16 dense matrix)性能,即Machine Learning机器学习密集矩阵。
官文:FP16性能是上代的两倍,INT8性能是四倍,FP16稀疏性能是四倍,INT8稀疏性能更是达到了八倍,还新增了对FP8精度格式的原生支持。
【4】9070XT vs 7900XTX vs RTX4090 INT4算力对比
9070XT共64CU,AI算力,INT4 779/1557 TOPs(稠密/稀疏)。
--换算单个CU能力,12.17/24.32。按照【3】的对比。得出RDNA3单个CU能力,6.08/12.17
7900XTX共96CU,INT4算力应该是 583.88/1167.75
4090查官方说明书 Ada Lovelace 架构,INT4算力是1321.2/2642.42。
INT4算力(TOPs)
稠密Dense稀疏Sparsity
9070XT(64CU)
779 1557
7900XTX(96CU)
583.88 1167.75
4090(512Tensor Cores) 1321.2 2642.42
4090/2效能 615 1321
【5】总结
各个厂商的性能数据,算法各不相同,算不懂。
硬拗的话,INT4算力4090官方性能除一半,和网上的大语言模型推理(单看deepseek)实测性能更接近。
583.88/615=95%,和AMD测评结果相似。
跑4bit量化模型的推理能力和4090差不了太多。
fp/bf16性能怎么样呢 宣传材料而已,商家永远懂得怎么用专属于他的口径测出自己NB的结果
用户看个热闹罢了,真用AI做生产力的用户,不会看商家自己的宣传,功课做的足足的
这些宣传都是给喜欢看热闹激发自己购买欲的用户,买来也是臭打游戏,AI个毛线啊AI~~~ 所以Windows上的ROCm好使了吗?能平替N卡推理和训练我就换了 1lch2 发表于 2025-3-5 09:51
所以Windows上的ROCm好使了吗?能平替N卡推理和训练我就换了
不完全好使,就算是WSL2还有bug和性能损耗,最后还是得Linux 本帖最后由 PolyMorph 于 2025-3-5 10:40 编辑
rdna3 矩阵是simd算的,FP16/BF16/INT8具有相同的峰值吞吐量,是 FP32 单精度浮点吞吐量的两倍,int4是4倍,也就是1024 ops/cu
5090D呢 既然能玩那肯定是既要又要的[狂笑] 1lch2 发表于 2025-3-5 09:51
所以Windows上的ROCm好使了吗?能平替N卡推理和训练我就换了
网上说9070不出32G。等未来9080GRE之类的东西再说?
页:
[1]