我来告诉你们为啥50系毫无提升,本质 Ada Refresh。。。
本帖最后由 chungexcy 于 2025-2-1 15:03 编辑这里是前几天公布的 Blackwell 的白皮书:
https://images.nvidia.com/aem-dam/Solutions/geforce/blackwell/nvidia-rtx-blackwell-gpu-architecture.pdf
1. ROPS 没有任何变化!
之前的流言说的是50系ROPS翻倍,一直到发布前都是这么传的!现在看果然是谣言!
40 系列里面效率最高的 4060,效率最低的是 4060ti、4070。
原因很简单:4060 是 8 SM/GPC,4060ti以上的是 12 SM/GPC,而光栅单元ROP都是 16 ROPS/GPC。
所以 4060 是 16 ROPS/ 8 SM,4060ti以上的是 16 ROPS/ 12 SM。
对比 4060(8SM)与 4060ti/4070m/4070(12SM),其 50% 的规模只能带来 20-25% 的性能提升。
这个性能提升幅度也符合 30 系列,3070 ti 和 3080 10GB/12GB 的性能差距也是 20-25%。
对于 30、40、50 系,16 ROPS/ 12 SM 是不够的。
4080(76SM)和 5080(84SM)的 ROPs 都是 112
4090(128SM)和 5090(170SM)的 ROPs 都是 176。
但 5090 这个问题更加恶劣了,进一步降低到了 16 ROPS/ 16 SM。也就是说,4060 单位 SM 的光栅单元是 5090 的两倍!
2. 5070 能提升20%,5070ti、5080 只能提升 10-15% 的原因
上面已经说了,5070ti、5080 相对于4070 ti super 和 4080s,大家都是 16 ROPS/ 12 SM。5-10%的sm+更高一点的频率+gddr7的提升带来了这10-15%。
而 5070 的规模改回了 5GPC *10SM,SM 的光栅规模 16 ROPS/ 10 SM,每光栅单元的压力降低了。性能相对 4070(4GPC *12SM)提升 20%,几乎追上了 4070s/4070ti(5GPC * 12SM)
5070 能提升20%,正好应证了 Blackwell 本质 Ada Refresh。
5070(48SM)是 GB205-300, GB205-400 应该才是完整的 50SM。
3. 我觉得 50 系里面除了原价的 5090 以外,最值得买的是 5070(划掉) 4070s
因为对于玩家而言,Blackwell = Ada Refresh。而 5GPC 的效率是最好的,6GPC 能提升15%,7GPC 能再提升10%。
当然擦亮眼睛后,去买更便宜的 4070s 更好。。。
总结:
练习时长两年半,搞出一个 Ada Refresh。。。
5080真实没自宫的400wBIOS其实是有20%的性能提升的… nApoleon 发表于 2025-2-1 12:52
5080真实没自宫的400wBIOS其实是有20%的性能提升的…
那是超频,IPC没有本质提升 chungexcy 发表于 2025-2-1 12:53
那是超频,IPC没有本质提升
你没理解…那就是最初5080的水平,是一月份突然上市前自宫了… nApoleon 发表于 2025-2-1 12:54
你没理解…那就是最初5080的水平,是一月份突然上市前自宫了…
我只看现在的芯片规模和设计。你400w也是超频堆功耗,除非不是GB203-400。 看评测和规格表时候就想到了,不过没法像你这么专业的表述出来 chungexcy 发表于 2025-2-1 12:55
我只看现在的芯片规模和设计。你400w也是超频堆功耗,除非不是GB203-400。
不用拉高功耗墙,我说的就是基于360w… 本帖最后由 chungexcy 于 2025-2-1 13:04 编辑
nApoleon 发表于 2025-2-1 13:00
不用拉高功耗墙,我说的就是基于360w…
你说的毫无意义,当下版本的GB202-300、GB203-400、GB203-300就这表现。 cuda大版本也没升,pascal是8,turing是10,ampere是11,ada是12,blackwell还是12。 enjoywoo 发表于 2025-2-1 12:58
看评测和规格表时候就想到了,不过没法像你这么专业的表述出来
之前刚发布的时候,wiki上写的ROP是有提升的,5090翻倍,5080以下的是1.5倍。
然后我就被骗了,怎么想都想不通为啥实测性能没有提升[流汗] 我輩樹である 发表于 2025-2-1 13:05
cuda大版本也没升,pascal是8,turing是10,ampere是11,ada是12,blackwell还是12。
是的,FP加改INT32毫无诚意,对游戏提升为0,还浪费晶体管。 差不多,很拉胯的一代! 我輩樹である 发表于 2025-2-1 13:05
cuda大版本也没升,pascal是8,turing是10,ampere是11,ada是12,blackwell还是12。
其实我觉得Ada也没咋改,cuda版本更新估计为了所谓更大的L2 跟intel一样,SNB之后SKL然后SKL++,能两年换一次接口躺着赚钱干嘛要干活?最后也亡于此 chungexcy 发表于 2025-2-1 13:14
其实我觉得Ada也没咋改,cuda版本更新估计为了所谓更大的L2
硬件上集成了新的调度器。 虽然说直接对比单元数量不科学- - 但如果ROP本身的效率没有做提升,那这个后端规模确实不够大 宣传上50系新加入的RTX Mega Geometry巨型几何引擎架构实测在40系上同样能获得13%以上收益,你都很难说50系的架构更新了啥....
性能提升主要靠工艺制程,制程红利快到头了,性能提升就纯堆规模和提频率了,功耗的提升等于性能的提升。 坐等全规格GB205+3GD7颗粒显存的sku了,不过估计大概率不会有 inSeek 发表于 2025-2-1 13:25
虽然说直接对比单元数量不科学- - 但如果ROP本身的效率没有做提升,那这个后端规模确实不够大 ...
你要有兴趣,可以自己让DeepSeek读一下这个白皮书。我的感觉就是传统游戏性能上的改进几乎为零。
不但如此,光栅就算了,光追性能提升也完全不及预期。。。 本帖最后由 inSeek 于 2025-2-1 13:35 编辑
chungexcy 发表于 2025-2-1 13:29
你要有兴趣,可以自己让DeepSeek读一下这个白皮书。我的感觉就是传统游戏性能上的改进几乎为零。
不但如 ...
相关的就是TMU的数量和效率提升了吧
前端和重排也改进了下,剩下似乎就没有什么特别相关的东西了
我就好奇,ROP单元的效率也没有改进,直接CV的Ada的么... CptQ 发表于 2025-2-1 13:27
性能提升主要靠工艺制程,制程红利快到头了,性能提升就纯堆规模和提频率了,功耗的提升等于性能的提升。 ...
问题是堆规模也没按照最优的模式堆。。。
最优的模式Hopper的FP+FP+INT,然后每12SM配12ROPs或者直接翻倍到16ROPs,然后GPC像Hopper一样别超过8GPC 本帖最后由 chungexcy 于 2025-2-1 13:45 编辑
inSeek 发表于 2025-2-1 13:34
相关的就是TMU的数量和效率提升了吧
前端和重排也改进了下,剩下似乎就没有什么特别相关的东西了
你仔细看 Texture Units,TMU数量也没有提升,跟着SM数量走的。。。4070 是 184 个,5070 是 192 个。
The number of texture units has increased from 512 in GeForce 4090 to 680 in GeForce 5090
效率白皮书里面没提的样子,只拿多出33%规模的5090对比了4090。 大概率是小幅改进,着重改进内部设计以提升频率
结果最后跟RDNA3一样在3G翻车了
5080要是同功耗下能跑3.5G,揍4090真不难
问题在于,5080相对于4080的提升好象都是N4P制程带来的10%频率上升副产物[生病] 白皮书出来看到rops没变确实有点绷不住,5080没变就算了,毕竟规模确实也没什么变化,但5090每gpc都扩大到16sm了,rops居然还是那样,活该效率低下[流汗] 5070按照老黄的ppt,提升不是和5070ti一样么,只有5080是最少的,你这数据是如何得出的? 如果是临时拉出来凑数的游戏卡,计算卡岂不是翻车更狠? BFG9K 发表于 2025-2-1 13:29
坐等全规格GB205+3GD7颗粒显存的sku了,不过估计大概率不会有
除非降价,263 mm2 卖现在这个价格意义不大 赫敏 发表于 2025-2-1 13:51
如果是临时拉出来凑数的游戏卡,计算卡岂不是翻车更狠?
靠FP4呗
这种刷分办法早晚原生支持1.58bit格式…… 赫敏 发表于 2025-2-1 13:51
如果是临时拉出来凑数的游戏卡,计算卡岂不是翻车更狠?
硅工艺的成本效益已经到达极限了,架构还没变化,你说呢?
不过5090绝对性能还是有的,只不过ada的计算卡也卖的挺好为啥要去提升呢。。。