你咋不对比4080的规模呢
要麽同规模比性能,要麽同性能比规模。
ab两个架构如果规模性能都有明显差异不太好比,假设b架构规模大50%,性能也维持在提升50%,说明b架构效率高,因为a架构扩大50%是绝对不可能性能涨50%的。
同性能比规模的话,4080效率显然比不过5070Ti。 本帖最后由 ghgfhghj 于 2025-2-22 15:58 编辑
PPXG 发表于 2025-2-22 13:19
甚至GB202依然保持12组GPC不变的情况下塞下了24576CUDA,为此需要每组GPC的TPC数量从6增加到8,但是ROP单元 ...
没法再加gpc了,12gpc已经相当低效了,从结果看4090到5090性能是跟着核心规模走的,可以说是比较理想了已经
每组sm 192个计算单元在开普勒试过,每组tpc 3个sm在特斯拉2.0试过,效果都不理想,想要继续增大确实只能是每组gpc的规格增大
老黄延续了每次旗舰首发都要出事的惯例[偷笑] 厨子手抖了 21760克的肉 少了6g的油水[傻笑] punk100 发表于 2025-2-22 12:10
这是切除的不干净,切偏了一点?
包皮割多了,影响了性!能! ghgfhghj 发表于 2025-2-22 15:27
没法再加gpc了,12gpc已经相当低效了,从结果看4090到5090性能是跟着核心规模走的,可以说是比较理想了已 ...
扯淡。
光栅化在gpc上,gpc数量就是最核心的瓶颈,再加上是通用瓶颈的互联和L2。 本帖最后由 ghgfhghj 于 2025-2-22 20:51 编辑
aasa0001 发表于 2025-2-22 20:08
扯淡。
光栅化在gpc上,gpc数量就是最核心的瓶颈,再加上是通用瓶颈的互联和L2。 ...
堆gpc有边际效应,n卡5gpc-7gpc效率最高,11gpc的4090边际效应比起7gpc的4080就相当明显
5090继续维持11gpc是正确的,依旧维持了相比4090规模相对线性的提升
4080到4090的提升不是线性的,衰减明显。但4090到5090性能提升却是和核心数量线性提升的。 fzyw 发表于 2025-2-22 15:09
不是12%是16%,而且算上dlss4的提升,5080的优势会更大。
4k平均12%的性能增幅是参考chh5080fe的评测。算肯定是传统性能,加了dlss就没意思了。用个软件就把对手压死真的显得不那么光彩。 本帖最后由 fzyw 于 2025-2-23 08:01 编辑
heroyours 发表于 2025-2-22 22:50
4k平均12%的性能增幅是参考chh5080fe的评测。算肯定是传统性能,加了dlss就没意思了。用个软件就把对手压 ...
继续加强dlss技术就是今后nvidia的发展方向,5090和5080开启dlss4后获得的帧数,如果光靠堆硬件你觉得什么时候能达到?不开启dlss,黑猴最高特效和画质下5080和4090,一个37帧一个43帧,两者都是没法玩的水平。
今后支持dlss4的游戏会越来越多,买5080的人有几个会绝对不用dlss4?怎么能因为你觉得没意思,就无视dlss4的差距?
而且dlss4的支持不仅是软件,更依赖于新的硬件架构,具体你看这里:https://www.163.com/dy/article/JMJ6VRDM0552OI16.html heroyours 发表于 2025-2-22 22:50
4k平均12%的性能增幅是参考chh5080fe的评测。算肯定是传统性能,加了dlss就没意思了。用个软件就把对手压 ...
chh的评测是光栅光追项目混合。
50系光栅游戏提升大于光追游戏(跑分反过来)。
光栅游戏大约10-18%不等,光追游戏8%-13%不等. fzyw 发表于 2025-2-23 07:42
继续加强dlss技术就是今后nvidia的发展方向,5090和5080开启dlss4后获得的帧数,如果光靠堆硬件你觉得什 ...
引用网易网友的评论:
旧显卡 Tensor Core规模不够。当然像4090 4080super这类上一代高端卡的不支持就说不过去了,老黄吃相难看 黄卡rops的配置从maxwell开始就没变
前端是gpc输出瓶颈,后端rop(早期和显存控制器绑定,著名的970 3.5G)
一个gpc输出16bit
早年GM200是一个gpc含8个tpc 共6个gpc
到GP102改为一个gpc含10个tpc 也是6个gpc
到GA102改为一个gpc含12个tpc 加到7个gpc
AD102维持一个gpc含12个tpc 加到12个gpc。但是这时候的光栅瓶颈已经很显著了。
GB202改为一个gpc含16个tpc 维持12个gpc。进一步加剧rop瓶颈,而且也无法充分利用显存带宽。
整个blackwell架构用了GD7,却没有匹配整个后端图形输出,也许老黄觉得加晶体管堆rop已经没有合适的收益了,摆烂就行。
特别是GB202就是为了非图形目的而去的 本帖最后由 LOLI反应堆 于 2025-2-23 15:30 编辑
aibo 发表于 2025-2-23 14:58
黄卡rops的配置从maxwell开始就没变
前端是gpc输出瓶颈,后端rop(早期和显存控制器绑定,著名的970 3.5G) ...
我觉得还好啊,5090比5080强52%,这和1080Ti在2K下比1070的幅度是差不多的。
现在的显卡跑4K应该就跟10系跑2K压力差不多吧。
如果放到8K下,百分之七八十的差距应该就来了。
只是现在粪便率没有提升欲望,未来10年如果还是停留在4K,那往后5代的显卡差距必然会像如今的1080P这样逐渐众生平等化。
光栅确实是没几年玩头了。 ghgfhghj 发表于 2025-2-22 20:42
堆gpc有边际效应,n卡5gpc-7gpc效率最高,11gpc的4090边际效应比起7gpc的4080就相当明显
5090继续维持11 ...
废话,增大规模,效率永远是降低的。
扩大面积、增加互联节点->互联延迟上升
cache/compute相对下降->cache命中下降
cache增大->cache延迟上升 aibo 发表于 2025-2-23 14:58
黄卡rops的配置从maxwell开始就没变
前端是gpc输出瓶颈,后端rop(早期和显存控制器绑定,著名的970 3.5G) ...
光栅的coherency/ordering要求太严格了,不重新定义,没法扩展的。
但老黄已经弄了光追和ai赛道,自然不会去管光栅了。 本帖最后由 ghgfhghj 于 2025-2-23 19:46 编辑
aasa0001 发表于 2025-2-23 19:04
废话,增大规模,效率永远是降低的。
扩大面积、增加互联节点->互联延迟上升
cache/compute相对下降->cac ...
5090改成16gpc*6tpc很大概率没有现在强,扯那么多其他的毫无意义
4080到4090,7gpc到11gpc,性能非线性增长,衰减严重
4090到5090,gpc数量没增加,只增加每个gpc的tpc数量,性能基本线性增长,这不明确了12gpc*8tpc的设计是更优的吗
要继续提升性能只能是每个gpc的ROPs数量翻倍,不能再继续提升gpc
页:
1
[2]