chungexcy 发表于 2025-2-1 12:51

我来告诉你们为啥50系毫无提升,本质 Ada Refresh。。。

本帖最后由 chungexcy 于 2025-2-1 15:03 编辑

这里是前几天公布的 Blackwell 的白皮书:
https://images.nvidia.com/aem-dam/Solutions/geforce/blackwell/nvidia-rtx-blackwell-gpu-architecture.pdf


1. ROPS 没有任何变化!

之前的流言说的是50系ROPS翻倍,一直到发布前都是这么传的!现在看果然是谣言!


40 系列里面效率最高的 4060,效率最低的是 4060ti、4070。
原因很简单:4060 是 8 SM/GPC,4060ti以上的是 12 SM/GPC,而光栅单元ROP都是 16 ROPS/GPC。
所以 4060 是 16 ROPS/ 8 SM,4060ti以上的是 16 ROPS/ 12 SM。

对比 4060(8SM)与 4060ti/4070m/4070(12SM),其 50% 的规模只能带来 20-25% 的性能提升。
这个性能提升幅度也符合 30 系列,3070 ti 和 3080 10GB/12GB 的性能差距也是 20-25%。

对于 30、40、50 系,16 ROPS/ 12 SM 是不够的。
4080(76SM)和 5080(84SM)的 ROPs 都是 112
4090(128SM)和 5090(170SM)的 ROPs 都是 176。
但 5090 这个问题更加恶劣了,进一步降低到了 16 ROPS/ 16 SM。也就是说,4060 单位 SM 的光栅单元是 5090 的两倍!


2. 5070 能提升20%,5070ti、5080 只能提升 10-15% 的原因

上面已经说了,5070ti、5080 相对于4070 ti super 和 4080s,大家都是 16 ROPS/ 12 SM。5-10%的sm+更高一点的频率+gddr7的提升带来了这10-15%。

而 5070 的规模改回了 5GPC *10SM,SM 的光栅规模 16 ROPS/ 10 SM,每光栅单元的压力降低了。性能相对 4070(4GPC *12SM)提升 20%,几乎追上了 4070s/4070ti(5GPC * 12SM)

5070 能提升20%,正好应证了 Blackwell 本质 Ada Refresh。
5070(48SM)是 GB205-300, GB205-400 应该才是完整的 50SM。


3. 我觉得 50 系里面除了原价的 5090 以外,最值得买的是 5070(划掉) 4070s

因为对于玩家而言,Blackwell = Ada Refresh。而 5GPC 的效率是最好的,6GPC 能提升15%,7GPC 能再提升10%。

当然擦亮眼睛后,去买更便宜的 4070s 更好。。。


总结:
练习时长两年半,搞出一个 Ada Refresh。。。



nApoleon 发表于 2025-2-1 12:52

5080真实没自宫的400wBIOS其实是有20%的性能提升的…

chungexcy 发表于 2025-2-1 12:53

nApoleon 发表于 2025-2-1 12:52
5080真实没自宫的400wBIOS其实是有20%的性能提升的…

那是超频,IPC没有本质提升

nApoleon 发表于 2025-2-1 12:54

chungexcy 发表于 2025-2-1 12:53
那是超频,IPC没有本质提升

你没理解…那就是最初5080的水平,是一月份突然上市前自宫了…

chungexcy 发表于 2025-2-1 12:55

nApoleon 发表于 2025-2-1 12:54
你没理解…那就是最初5080的水平,是一月份突然上市前自宫了…

我只看现在的芯片规模和设计。你400w也是超频堆功耗,除非不是GB203-400。

enjoywoo 发表于 2025-2-1 12:58

看评测和规格表时候就想到了,不过没法像你这么专业的表述出来

nApoleon 发表于 2025-2-1 13:00

chungexcy 发表于 2025-2-1 12:55
我只看现在的芯片规模和设计。你400w也是超频堆功耗,除非不是GB203-400。

不用拉高功耗墙,我说的就是基于360w…

chungexcy 发表于 2025-2-1 13:03

本帖最后由 chungexcy 于 2025-2-1 13:04 编辑

nApoleon 发表于 2025-2-1 13:00
不用拉高功耗墙,我说的就是基于360w…

你说的毫无意义,当下版本的GB202-300、GB203-400、GB203-300就这表现。

我輩樹である 发表于 2025-2-1 13:05

cuda大版本也没升,pascal是8,turing是10,ampere是11,ada是12,blackwell还是12。

chungexcy 发表于 2025-2-1 13:06

enjoywoo 发表于 2025-2-1 12:58
看评测和规格表时候就想到了,不过没法像你这么专业的表述出来

之前刚发布的时候,wiki上写的ROP是有提升的,5090翻倍,5080以下的是1.5倍。
然后我就被骗了,怎么想都想不通为啥实测性能没有提升[流汗]

chungexcy 发表于 2025-2-1 13:08

我輩樹である 发表于 2025-2-1 13:05
cuda大版本也没升,pascal是8,turing是10,ampere是11,ada是12,blackwell还是12。

是的,FP加改INT32毫无诚意,对游戏提升为0,还浪费晶体管。

yopmai 发表于 2025-2-1 13:09

差不多,很拉胯的一代!

chungexcy 发表于 2025-2-1 13:14

我輩樹である 发表于 2025-2-1 13:05
cuda大版本也没升,pascal是8,turing是10,ampere是11,ada是12,blackwell还是12。

其实我觉得Ada也没咋改,cuda版本更新估计为了所谓更大的L2

鬼武人 发表于 2025-2-1 13:14

跟intel一样,SNB之后SKL然后SKL++,能两年换一次接口躺着赚钱干嘛要干活?最后也亡于此

我輩樹である 发表于 2025-2-1 13:19

chungexcy 发表于 2025-2-1 13:14
其实我觉得Ada也没咋改,cuda版本更新估计为了所谓更大的L2

硬件上集成了新的调度器。

inSeek 发表于 2025-2-1 13:25

虽然说直接对比单元数量不科学- - 但如果ROP本身的效率没有做提升,那这个后端规模确实不够大

路西法大大 发表于 2025-2-1 13:26

宣传上50系新加入的RTX Mega Geometry巨型几何引擎架构实测在40系上同样能获得13%以上收益,你都很难说50系的架构更新了啥....

CptQ 发表于 2025-2-1 13:27

性能提升主要靠工艺制程,制程红利快到头了,性能提升就纯堆规模和提频率了,功耗的提升等于性能的提升。

BFG9K 发表于 2025-2-1 13:29

坐等全规格GB205+3GD7颗粒显存的sku了,不过估计大概率不会有

chungexcy 发表于 2025-2-1 13:29

inSeek 发表于 2025-2-1 13:25
虽然说直接对比单元数量不科学- - 但如果ROP本身的效率没有做提升,那这个后端规模确实不够大 ...

你要有兴趣,可以自己让DeepSeek读一下这个白皮书。我的感觉就是传统游戏性能上的改进几乎为零。
不但如此,光栅就算了,光追性能提升也完全不及预期。。。

inSeek 发表于 2025-2-1 13:34

本帖最后由 inSeek 于 2025-2-1 13:35 编辑

chungexcy 发表于 2025-2-1 13:29
你要有兴趣,可以自己让DeepSeek读一下这个白皮书。我的感觉就是传统游戏性能上的改进几乎为零。
不但如 ...

相关的就是TMU的数量和效率提升了吧
前端和重排也改进了下,剩下似乎就没有什么特别相关的东西了

我就好奇,ROP单元的效率也没有改进,直接CV的Ada的么...

chungexcy 发表于 2025-2-1 13:36

CptQ 发表于 2025-2-1 13:27
性能提升主要靠工艺制程,制程红利快到头了,性能提升就纯堆规模和提频率了,功耗的提升等于性能的提升。 ...

问题是堆规模也没按照最优的模式堆。。。

最优的模式Hopper的FP+FP+INT,然后每12SM配12ROPs或者直接翻倍到16ROPs,然后GPC像Hopper一样别超过8GPC

chungexcy 发表于 2025-2-1 13:41

本帖最后由 chungexcy 于 2025-2-1 13:45 编辑

inSeek 发表于 2025-2-1 13:34
相关的就是TMU的数量和效率提升了吧
前端和重排也改进了下,剩下似乎就没有什么特别相关的东西了



你仔细看 Texture Units,TMU数量也没有提升,跟着SM数量走的。。。4070 是 184 个,5070 是 192 个。

The number of texture units has increased from 512 in GeForce 4090 to 680 in GeForce 5090

效率白皮书里面没提的样子,只拿多出33%规模的5090对比了4090。

allensakura 发表于 2025-2-1 13:44

大概率是小幅改进,着重改进内部设计以提升频率
结果最后跟RDNA3一样在3G翻车了
5080要是同功耗下能跑3.5G,揍4090真不难
问题在于,5080相对于4080的提升好象都是N4P制程带来的10%频率上升副产物[生病]

atiufo 发表于 2025-2-1 13:48

白皮书出来看到rops没变确实有点绷不住,5080没变就算了,毕竟规模确实也没什么变化,但5090每gpc都扩大到16sm了,rops居然还是那样,活该效率低下[流汗]

Epilogue 发表于 2025-2-1 13:49

5070按照老黄的ppt,提升不是和5070ti一样么,只有5080是最少的,你这数据是如何得出的?

赫敏 发表于 2025-2-1 13:51

如果是临时拉出来凑数的游戏卡,计算卡岂不是翻车更狠?

chungexcy 发表于 2025-2-1 13:52

BFG9K 发表于 2025-2-1 13:29
坐等全规格GB205+3GD7颗粒显存的sku了,不过估计大概率不会有

除非降价,263 mm2 卖现在这个价格意义不大

af_x_if 发表于 2025-2-1 13:55

赫敏 发表于 2025-2-1 13:51
如果是临时拉出来凑数的游戏卡,计算卡岂不是翻车更狠?

靠FP4呗
这种刷分办法早晚原生支持1.58bit格式……

chungexcy 发表于 2025-2-1 13:56

赫敏 发表于 2025-2-1 13:51
如果是临时拉出来凑数的游戏卡,计算卡岂不是翻车更狠?

硅工艺的成本效益已经到达极限了,架构还没变化,你说呢?

不过5090绝对性能还是有的,只不过ada的计算卡也卖的挺好为啥要去提升呢。。。
页: [1] 2 3 4 5
查看完整版本: 我来告诉你们为啥50系毫无提升,本质 Ada Refresh。。。