我来告诉你们为啥50系毫无提升，本质 Ada Refresh。。。

chungexcy 发表于 2025-2-1 12:51

本帖最后由 chungexcy 于 2025-2-1 15:03 编辑

这里是前几天公布的 Blackwell 的白皮书：
https://images.nvidia.com/aem-dam/Solutions/geforce/blackwell/nvidia-rtx-blackwell-gpu-architecture.pdf

1. ROPS 没有任何变化！

之前的流言说的是50系ROPS翻倍，一直到发布前都是这么传的！现在看果然是谣言！

40 系列里面效率最高的 4060，效率最低的是 4060ti、4070。
原因很简单：4060 是 8 SM/GPC，4060ti以上的是 12 SM/GPC，而光栅单元ROP都是 16 ROPS/GPC。
所以 4060 是 16 ROPS/ 8 SM，4060ti以上的是 16 ROPS/ 12 SM。

对比 4060（8SM）与 4060ti/4070m/4070（12SM），其 50% 的规模只能带来 20-25% 的性能提升。
这个性能提升幅度也符合 30 系列，3070 ti 和 3080 10GB/12GB 的性能差距也是 20-25%。

对于 30、40、50 系，16 ROPS/ 12 SM 是不够的。
4080（76SM）和 5080（84SM）的 ROPs 都是 112
4090（128SM）和 5090（170SM）的 ROPs 都是 176。
但 5090 这个问题更加恶劣了，进一步降低到了 16 ROPS/ 16 SM。也就是说，4060 单位 SM 的光栅单元是 5090 的两倍！

2. 5070 能提升20%，5070ti、5080 只能提升 10-15% 的原因

上面已经说了，5070ti、5080 相对于4070 ti super 和 4080s，大家都是 16 ROPS/ 12 SM。5-10%的sm+更高一点的频率+gddr7的提升带来了这10-15%。

而 5070 的规模改回了 5GPC *10SM，SM 的光栅规模 16 ROPS/ 10 SM，每光栅单元的压力降低了。性能相对 4070（4GPC *12SM）提升 20%，几乎追上了 4070s/4070ti（5GPC * 12SM）

5070 能提升20%，正好应证了 Blackwell 本质 Ada Refresh。
5070（48SM）是 GB205-300， GB205-400 应该才是完整的 50SM。

3. 我觉得 50 系里面除了原价的 5090 以外，最值得买的是 5070（划掉） 4070s

因为对于玩家而言，Blackwell = Ada Refresh。而 5GPC 的效率是最好的，6GPC 能提升15%，7GPC 能再提升10%。

当然擦亮眼睛后，去买更便宜的 4070s 更好。。。

总结：
练习时长两年半，搞出一个 Ada Refresh。。。

nApoleon 发表于 2025-2-1 12:52

5080真实没自宫的400wBIOS其实是有20%的性能提升的…

chungexcy 发表于 2025-2-1 12:53

nApoleon 发表于 2025-2-1 12:52
5080真实没自宫的400wBIOS其实是有20%的性能提升的…

那是超频，IPC没有本质提升

nApoleon 发表于 2025-2-1 12:54

chungexcy 发表于 2025-2-1 12:53
那是超频，IPC没有本质提升

你没理解…那就是最初5080的水平,是一月份突然上市前自宫了…

chungexcy 发表于 2025-2-1 12:55

nApoleon 发表于 2025-2-1 12:54
你没理解…那就是最初5080的水平,是一月份突然上市前自宫了…

我只看现在的芯片规模和设计。你400w也是超频堆功耗，除非不是GB203-400。

enjoywoo 发表于 2025-2-1 12:58

看评测和规格表时候就想到了，不过没法像你这么专业的表述出来

nApoleon 发表于 2025-2-1 13:00

chungexcy 发表于 2025-2-1 12:55
我只看现在的芯片规模和设计。你400w也是超频堆功耗，除非不是GB203-400。

不用拉高功耗墙,我说的就是基于360w…

chungexcy 发表于 2025-2-1 13:03

本帖最后由 chungexcy 于 2025-2-1 13:04 编辑

nApoleon 发表于 2025-2-1 13:00
不用拉高功耗墙,我说的就是基于360w…

你说的毫无意义，当下版本的GB202-300、GB203-400、GB203-300就这表现。

我輩樹である 发表于 2025-2-1 13:05

cuda大版本也没升，pascal是8，turing是10，ampere是11，ada是12，blackwell还是12。

chungexcy 发表于 2025-2-1 13:06

enjoywoo 发表于 2025-2-1 12:58
看评测和规格表时候就想到了，不过没法像你这么专业的表述出来

之前刚发布的时候，wiki上写的ROP是有提升的，5090翻倍，5080以下的是1.5倍。
然后我就被骗了，怎么想都想不通为啥实测性能没有提升[流汗]

chungexcy 发表于 2025-2-1 13:08

我輩樹である发表于 2025-2-1 13:05
cuda大版本也没升，pascal是8，turing是10，ampere是11，ada是12，blackwell还是12。

是的，FP加改INT32毫无诚意，对游戏提升为0，还浪费晶体管。

yopmai 发表于 2025-2-1 13:09

差不多，很拉胯的一代！

chungexcy 发表于 2025-2-1 13:14

我輩樹である发表于 2025-2-1 13:05
cuda大版本也没升，pascal是8，turing是10，ampere是11，ada是12，blackwell还是12。

其实我觉得Ada也没咋改，cuda版本更新估计为了所谓更大的L2

鬼武人 发表于 2025-2-1 13:14

跟intel一样，SNB之后SKL然后SKL++，能两年换一次接口躺着赚钱干嘛要干活？最后也亡于此

我輩樹である 发表于 2025-2-1 13:19

chungexcy 发表于 2025-2-1 13:14
其实我觉得Ada也没咋改，cuda版本更新估计为了所谓更大的L2

硬件上集成了新的调度器。

inSeek 发表于 2025-2-1 13:25

虽然说直接对比单元数量不科学- - 但如果ROP本身的效率没有做提升，那这个后端规模确实不够大

路西法大大 发表于 2025-2-1 13:26

宣传上50系新加入的RTX Mega Geometry巨型几何引擎架构实测在40系上同样能获得13%以上收益，你都很难说50系的架构更新了啥....

CptQ 发表于 2025-2-1 13:27

性能提升主要靠工艺制程，制程红利快到头了，性能提升就纯堆规模和提频率了，功耗的提升等于性能的提升。

BFG9K 发表于 2025-2-1 13:29

坐等全规格GB205+3GD7颗粒显存的sku了，不过估计大概率不会有

chungexcy 发表于 2025-2-1 13:29

inSeek 发表于 2025-2-1 13:25
虽然说直接对比单元数量不科学- - 但如果ROP本身的效率没有做提升，那这个后端规模确实不够大 ...

你要有兴趣，可以自己让DeepSeek读一下这个白皮书。我的感觉就是传统游戏性能上的改进几乎为零。
不但如此，光栅就算了，光追性能提升也完全不及预期。。。

inSeek 发表于 2025-2-1 13:34

本帖最后由 inSeek 于 2025-2-1 13:35 编辑

chungexcy 发表于 2025-2-1 13:29
你要有兴趣，可以自己让DeepSeek读一下这个白皮书。我的感觉就是传统游戏性能上的改进几乎为零。
不但如 ...

相关的就是TMU的数量和效率提升了吧
前端和重排也改进了下，剩下似乎就没有什么特别相关的东西了

我就好奇，ROP单元的效率也没有改进，直接CV的Ada的么...

chungexcy 发表于 2025-2-1 13:36

CptQ 发表于 2025-2-1 13:27
性能提升主要靠工艺制程，制程红利快到头了，性能提升就纯堆规模和提频率了，功耗的提升等于性能的提升。 ...

问题是堆规模也没按照最优的模式堆。。。

最优的模式Hopper的FP+FP+INT，然后每12SM配12ROPs或者直接翻倍到16ROPs，然后GPC像Hopper一样别超过8GPC

chungexcy 发表于 2025-2-1 13:41

本帖最后由 chungexcy 于 2025-2-1 13:45 编辑

inSeek 发表于 2025-2-1 13:34
相关的就是TMU的数量和效率提升了吧
前端和重排也改进了下，剩下似乎就没有什么特别相关的东西了

你仔细看 Texture Units，TMU数量也没有提升，跟着SM数量走的。。。4070 是 184 个，5070 是 192 个。

The number of texture units has increased from 512 in GeForce 4090 to 680 in GeForce 5090

效率白皮书里面没提的样子，只拿多出33%规模的5090对比了4090。

allensakura 发表于 2025-2-1 13:44

大概率是小幅改进，着重改进内部设计以提升频率
结果最后跟RDNA3一样在3G翻车了
5080要是同功耗下能跑3.5G，揍4090真不难
问题在于，5080相对于4080的提升好象都是N4P制程带来的10%频率上升副产物[生病]

atiufo 发表于 2025-2-1 13:48

白皮书出来看到rops没变确实有点绷不住，5080没变就算了，毕竟规模确实也没什么变化，但5090每gpc都扩大到16sm了，rops居然还是那样，活该效率低下[流汗]

Epilogue 发表于 2025-2-1 13:49

5070按照老黄的ppt，提升不是和5070ti一样么，只有5080是最少的，你这数据是如何得出的?

赫敏发表于 2025-2-1 13:51

如果是临时拉出来凑数的游戏卡，计算卡岂不是翻车更狠？

chungexcy 发表于 2025-2-1 13:52

BFG9K 发表于 2025-2-1 13:29
坐等全规格GB205+3GD7颗粒显存的sku了，不过估计大概率不会有

除非降价，263 mm2 卖现在这个价格意义不大

af_x_if 发表于 2025-2-1 13:55

赫敏发表于 2025-2-1 13:51
如果是临时拉出来凑数的游戏卡，计算卡岂不是翻车更狠？

靠FP4呗
这种刷分办法早晚原生支持1.58bit格式……

chungexcy 发表于 2025-2-1 13:56

赫敏发表于 2025-2-1 13:51
如果是临时拉出来凑数的游戏卡，计算卡岂不是翻车更狠？

硅工艺的成本效益已经到达极限了，架构还没变化，你说呢？

不过5090绝对性能还是有的，只不过ada的计算卡也卖的挺好为啥要去提升呢。。。

页: [1] 2 3 4 5

Chiphell - 分享与交流用户体验's Archiver

我来告诉你们为啥50系毫无提升，本质 Ada Refresh。。。