平安是福
发表于 2025-2-22 18:15
ghgfhghj 发表于 2025-2-22 16:54
你一句话都没说对
20系是唯一一代int32和fp32全部分离的
你要就加q说吧,私聊也限制了
平安是福
发表于 2025-2-22 18:22
本帖最后由 平安是福 于 2025-2-22 18:26 编辑
ghgfhghj 发表于 2025-2-22 17:54
那你告诉我3060为什么打不过1080ti,另外5080只比4080显存带宽高34%,远远没有翻倍,不要再脑补东西了 ...
因为说了30系开始双倍浮点是和一个整数单元共用的,如果纯跑没整数指令的确实就能到极限2倍的浮点算力。但是游戏里面说了浮点整数大概是1比0.6,不可能完全没有整数。这样1080ti就比3060多出来一倍的整数型算力。但是显然游戏的比例是1比0.6,所以按照timespy跑分3060能跑8800,1080ti跑9800高了11%这样你满意了吗?
Neo_Granzon
发表于 2025-2-23 02:34
chungexcy 发表于 2025-2-1 14:03
我也是这么想的,我感觉4060已经做到效率天花板了。
5GPC以下效率都差不多。SM不变的话性能不会有大提升 ...
以后游戏的着色器只会越来越复杂,对SM的压力会越来越大。
tim6252
发表于 2025-2-23 02:59
其实公版FE的设计风格就已经告诉我们了 30FE 40FE 50FE的外观基本是同一风格, 而大的架构这块其实30打好了基础 40说难听点就是个台积电版3050 LZ罗列的就很明白了。
特别是老黄发布会上说光追和tensor都翻倍了,我还说这下渲染爽了。 结果一看渲染测试提升只有30%左右。。。
chungexcy
发表于 2025-2-23 03:34
ghgfhghj 发表于 2025-2-22 17:54
你别脑补了,10系和50系就是一样的
10系和50系可不是一样的,之前30/40单算fp32的单元只加了int32,没加fp16
fp16的性能就不一样。
chungexcy
发表于 2025-2-23 03:43
本帖最后由 chungexcy 于 2025-2-24 08:04 编辑
平安是福 发表于 2025-2-22 18:22
因为说了30系开始双倍浮点是和一个整数单元共用的,如果纯跑没整数指令的确实就能到极限2倍的浮点算力。 ...
Edit: 打错了,8tpc/gpc -> 8sm/gpc
1:0.6只是那一个游戏,更多的游戏这个比例在1:0.4以内。20系相对10系平均提升也就在20%多。
虽然浮点性能一样,但1080ti的带宽/l2都比3060高,所以性能更好。
rops只在严重不足拖累CUDA性能的情况下才会出现瓶颈。10/20以及30/40里面8tpc/gpc的型号不存在rops瓶颈,性能几乎和CUDA性能成正比,就是你计算的每sm指令周期数执行时间。
kingofgu
发表于 2025-2-23 07:52
这gb202都是单独流的片 前后端加点东西又不影响他计算卡赚钱
延期半年还端出个半成品 长期高股价对研发能力伤害太大了 你不能指望员工财富自由后继续996
T43P
发表于 2025-2-23 15:17
fpd92axv 发表于 2025-2-22 15:54
不急用等618降到史低再买50系
5070 ?
ghgfhghj
发表于 2025-2-23 17:26
chungexcy 发表于 2025-2-23 03:34
10系和50系可不是一样的,之前30/40单算fp32的单元只加了int32,没加fp16
fp16的性能就不一样。 ...
你说的对,但相比之下10系的fp16性能本来就是残疾的
ghgfhghj
发表于 2025-2-23 17:34
本帖最后由 ghgfhghj 于 2025-2-23 17:58 编辑
chungexcy 发表于 2025-2-23 03:43
1:0.6只是那一个游戏,更多的游戏这个比例在1:0.4以内。20系相对10系平均提升也就在20%多。
虽然浮点性能 ...
除了5090就没8tpc/gpc的显卡。。。我猜你想说的是8sm/gpc吧,20系开始一个tpc有两组sm
所以我说只有20系是特殊的,其他几代直接看浮点/cuda/sm数基本对应的起来
20系只看sm数量你会觉得他非常低能,但看cuda数量他又很高能
windaria
发表于 2025-2-23 20:33
光栅给多了,对高分辨率的能力就变强,变强了就没办法推销dlss了