找回密码
 加入我们
搜索
      
查看: 13172|回复: 34

[显卡] 很多人没明白英伟达能用TSMC 5nm做出多强的卡

[复制链接]
发表于 2022-9-9 23:43 | 显示全部楼层 |阅读模式
A100白皮书 https://images.nvidia.com/aem-dam/en-zz/Solutions/data-center/nvidia-ampere-architecture-whitepaper.pdf
GA102白皮书 https://www.nvidia.com/content/PDF/nvidia-ampere-ga-102-gpu-architecture-whitepaper-v2.pdf
H100白皮书 https://resources.nvidia.com/en-us-tensor-core

以下所有数据和内容均出自于上面三分白皮书,简单点说就是H100两个版本。完全体SXM5性能是3.1x A100,规模是2.5x。功耗1.75x,缩水体也可以做到PCIe性能是A100 2.5x,规模2.1x,功耗0.88x



我引用一下原话就是
3x faster IEEE FP64 and FP32 processing rates chip-to-chip compared to A100, due to 2x faster clock-for-clock performance per SM, plus additional SM counts and higher clocks of H100.



从CUDA规模上看,GA102的sm单元是A100的1/2(多个RT core),而A100又是H100的1/2。H100还有PCIe5.0,HBM3e,这些不会用游戏卡上的暂且不提。

也就是说7nm->5nm,老黄可以做出了同功耗理论性能2.5x+的卡。那么samsung 8nm->5nm,你不用大脑就能想到老黄性能上压制AMD不是能不能的事情,而是想不想的事情。现在不管什么传言,ada lovelace高功耗也好,以及之前GH下放也罢。只要老黄想,规模做到GA102直接2x+,再加上频率1.5x,这是毫无难度,这性能提升绝对比ampere相比turing大了多。

我黄只是给苏妈留点面子,不想赢了那么多,旗舰只要象征性稍微赢点就行了,然后定格高价,愿者上钩,走量还是靠下面的60/70。也不知道RNDA3究竟如何,大家都要赚钱,所以向来精准的刀法需要一定地酝酿,免得你们这群打游戏的说我老黄老了,刀法不行。面对vega整出个1080ti纯属没必要
发表于 2022-9-9 23:46 | 显示全部楼层
啊 对对对
发表于 2022-9-9 23:52 | 显示全部楼层
计算卡重复单元多,频率不用很高。游戏卡要把各种硬件特效做上去还要保证频率,所以5nm密度优势没那么大

当然老黄这边拿捏下amd还是一点问题都没有的
发表于 2022-9-9 23:55 | 显示全部楼层
明白了又能怎么样
发表于 2022-9-9 23:57 | 显示全部楼层
所以发售三个月内价格会到MSPR的五折吗
发表于 2022-9-10 00:04 | 显示全部楼层
GA100没有像游戏卡那样FP32加倍,显得挺低的。可能是立项比较早的原因?还是说为了加强矩阵乘法而减少向量乘法投入
发表于 2022-9-10 00:05 | 显示全部楼层
苏妈躲在墙角喃喃自言自语:锤你的是30系,跟我有什么关系
发表于 2022-9-10 00:08 | 显示全部楼层
N也好,A也好,谁强谁弱有什么好争的呢,谁强你买谁的就是了啊,争论这个有钱收?
发表于 2022-9-10 00:15 来自手机 | 显示全部楼层
本帖最后由 psps3 于 2022-9-10 00:25 编辑

下代卡老黄不知能切出多少型号
发表于 2022-9-10 00:18 | 显示全部楼层
谁性能强就买谁~~我没有信仰的~~我只有钱
发表于 2022-9-10 00:23 | 显示全部楼层
黄:小赢中赢还是大赢?真是烦恼
发表于 2022-9-10 00:36 来自手机 | 显示全部楼层
没意义,马上发布了,有多强到时候自然见分晓
发表于 2022-9-10 00:43 来自手机 | 显示全部楼层
楼主说的都对,请坚持自己的观点
发表于 2022-9-10 01:08 | 显示全部楼层
楼主有一些认识偏差,首先比较tensor core的性能对于游戏计算来说是没有意义的,tensor core的执行主要是对于HMMA.16816指令。而游戏中更多用的是cuda core的性能,这里老黄可能要让你失望了,你看A6000的GA102的fp32的性能是38.7,而GA100的SM中FP32和INT32是不同的,所以A100的fp32的性能会比A6000(3090)差。回到 H100的fp32,SM中的FP32翻倍,达到48T。实际提升了24%。并且这还是考虑到两边显存带宽都是没有瓶颈上。并且H100的话少了RTcore,加回来的话肯定要占其他计算单元的位置(估计要砍tensor core的性能)。再加上raster engine,估计这代提升在20%左右比较正常
 楼主| 发表于 2022-9-10 01:21 | 显示全部楼层
qiu95 发表于 2022-9-10 01:08
楼主有一些认识偏差,首先比较tensor core的性能对于游戏计算来说是没有意义的,tensor core的执行主要是对 ...

这不是GA102和A100的横向比较,两者本来就不具备可比性,我自然知道3090 FP32 39T。这里比的是H100和A100,除了显存容量不变,一次工艺变更,从FP8->FP64全方位3X性能提升,而不是拆东墙补西墙式的提升。说了直白点就是老黄不计成本游戏卡至少能做到3X+理论性能提升,因为samsung 8nm远不如tmsc 7nm。
发表于 2022-9-10 01:28 | 显示全部楼层
虽说我估计ad102完全体也是会比n31强点…
但是用fp32估性能吧,n31应该也得有n21的三倍来着…这么算没啥太大意义,和游戏帧数的提升挂钩太少
发表于 2022-9-10 02:32 | 显示全部楼层
本帖最后由 FelixIvory 于 2022-9-10 02:33 编辑

1.能耗比,在一个合适功耗下的中端卡性能。
2.定价。
3.恶心玩家,16g显存是分水岭。游戏建模的提升,显存给16g才能保证未来游戏在4k下运行良好。
4.单纯谈旗舰,无非是能耗比和规模的博弈。
发表于 2022-9-10 02:35 | 显示全部楼层
本帖最后由 用户 于 2022-9-10 02:51 编辑

MLPerf结果已经出来了,ResNet50看着没到2倍啊?



BERT加速多但好像用了低精度
发表于 2022-9-10 04:28 | 显示全部楼层
问题不是他能做多强,而是市场环境能让你花同样的钱买到多强的货。
发表于 2022-9-10 05:13 | 显示全部楼层
很久之前,intel的fans也是这样说amd的……
发表于 2022-9-10 06:06 来自手机 | 显示全部楼层
拿表面数据做出的表面结论
发表于 2022-9-10 07:06 | 显示全部楼层
AMD准时在每年发布前倒闭一次。
发表于 2022-9-10 08:29 来自手机 | 显示全部楼层
AMD何时倒闭?
发表于 2022-9-10 10:00 来自手机 | 显示全部楼层
不影响大家根据现状寻找需求,回归互相需求再打成一致本身
发表于 2022-9-10 10:00 | 显示全部楼层
黄刀客现在就是前几年的牙膏
不是做不出来,是故意慢慢挤牙膏。
这都看不出来?
显存大小设置就很明显
发表于 2022-9-10 10:12 | 显示全部楼层
功耗是多少呢?相同功耗下跟amd显卡比强多少呢?
发表于 2022-9-10 13:50 | 显示全部楼层
AMD日常倒闭
发表于 2022-9-10 14:53 | 显示全部楼层
两人不是亲戚嘛,肯定合计合计一起赚钱啊
发表于 2022-9-10 14:57 | 显示全部楼层
4070有256bit没?
发表于 2022-9-10 15:21 | 显示全部楼层
你猜猜MI50(7nm,300W)->MI250X(6nm,500W)提升了多少倍?
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2024-9-22 06:44 , Processed in 0.011975 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表