fdhfdhd 发表于 2025-2-1 16:34

[流汗]突然想起来50系还换了GD7
现在越看越像这GD7对比GD6X只是徒增功耗发热,更高带宽完全没有换到提升的样子

守护灬纯洁之心 发表于 2025-2-1 16:35

PPXG 发表于 2025-2-1 14:43
ada refresh不至于,单纯refresh就不需要搞这么多为了AI服务的硬件变动了,以及和微软联合搞的神经网络渲染 ...

但是这些改进不一定是硬件层面的,40系只是没吃到红利……

守护灬纯洁之心 发表于 2025-2-1 16:38

zhoubi 发表于 2025-2-1 14:21
blackwell拉稀有点像rdna3,都是来自架构的改进取得的收益太低。这次84sm的5080只比80sm的4080强10%多,计 ...

RDNA3的FP32是dual issues带来的,仅仅只是理论FP32翻倍,FP16压根没有变化
安培的FP32应该是真塞了一倍的FP32单元进去的,所以才有了提升。但这个代价就是晶体管也暴涨,AMD小家子气显然不愿意干这种买卖(多了一倍的FP32晶体管,性能才多30%,如果等比例扩大其他单元的话肯定不止30%)

yy323818 发表于 2025-2-1 16:40

50系的4N工艺相对5N工艺密度提升太小,可以说基本没啥变化!因此在增加的晶体管有限的条件下,是选择AI计算性能还是光栅图形渲染性能,老黄选择了AI计算性能!因为增加的SM晶体管数量和AI性能是线性的,估计下一代60系到了3N/2N工艺,密度增加了,就能空出来增加光栅性能的空间了。

pdvc 发表于 2025-2-1 16:50

af_x_if 发表于 2025-2-1 13:55
靠FP4呗
这种刷分办法早晚原生支持1.58bit格式……

1.58bit量化的deepseek已经出来了😛

wuxi001 发表于 2025-2-1 17:03

TSMC 越来越贵,AI芯片又供不应求,哪有空专研显卡。

yylwld 发表于 2025-2-1 17:03

chungexcy 发表于 2025-2-1 13:03
你说的毫无意义,当下版本的GB202-300、GB203-400、GB203-300就这表现。

你和他说这么多没意义,他肯定白皮书都没打开过。[偷笑]

ghgfhghj 发表于 2025-2-1 17:08

chungexcy 发表于 2025-2-1 16:29
同频确实打不过,显存都差一节。但tpu里面的2080ti其实也和3070差不多,那会儿也还没有新游戏。

主要还 ...

所以2080ti是980ti后最能超的n卡,250w确实喂不饱68sm的规模

当年老黄还是太保守了,780ti到2080ti一直都是250w

8xwob3ko 发表于 2025-2-1 17:42

赫敏 发表于 2025-2-1 13:51
如果是临时拉出来凑数的游戏卡,计算卡岂不是翻车更狠?

Blackwell的计算卡确实翻车更大

lgblee 发表于 2025-2-1 17:53

ghgfhghj 发表于 2025-2-1 16:05
3070理论性能根本打不过2080ti,只是老黄不给20系rebar导致2080ti新游戏不行

虚幻4老游戏3070基本打平2080Ti

lgblee 发表于 2025-2-1 17:55

ghgfhghj 发表于 2025-2-1 17:08
所以2080ti是980ti后最能超的n卡,250w确实喂不饱68sm的规模

当年老黄还是太保守了,780ti到2080ti一直 ...

20系花屏门,历历在目
1080Ti 超3%就极限了

tengyun 发表于 2025-2-1 18:31

本帖最后由 tengyun 于 2025-2-1 18:35 编辑

B站有篇讲解BLACKWELL的架构 PPT的【随便聊聊】RTX 50 Blackwell 架构特性_哔哩哔哩_bilibili https://www.bilibili.com/video/BV1ocFLetEUk/?spm_id_from=333.337.search-card.all.click

50系其实 CUDA改动相比40以前改动很大。(其实就恢复到10系的配置)
打通tensor CORE和CUDA的渲染配置。 以后是要让tensor core 辅助参与渲染(这个就很战未来,当然也可能只是画大饼)
光追+了几个新的算法。

总结:就是这些改动 跑当下的游戏和以前的游戏,就只是吃规格膨胀的红利。架构调整是有往战未来的改动。

ghgfhghj 发表于 2025-2-1 18:42

tengyun 发表于 2025-2-1 18:31
B站有篇讲解BLACKWELL的架构 PPT的【随便聊聊】RTX 50 Blackwell 架构特性_哔哩哔哩_bilibili https:/ ...

其实不是简单的恢复,每个sm的in32和fp32数量是翻倍了的

一日 发表于 2025-2-1 20:10

我輩樹である 发表于 2025-1-31 21:05
cuda大版本也没升,pascal是8,turing是10,ampere是11,ada是12,blackwell还是12。

CUDA和这个没关系。Compute Capability,3090是8.6,4090是8.9,5090是12

楼主嘲讽性能提升低,没毛病,但结构变化这么大,压根就不是refresh。

13655640213 发表于 2025-2-1 20:26

4080和5080对比,核心提升不是非常大“提高了良品能力” 其次g6x和g7显存颗粒的提升,dlss算是美容升级吧

我輩樹である 发表于 2025-2-1 20:31

一日 发表于 2025-2-1 20:10
CUDA和这个没关系。Compute Capability,3090是8.6,4090是8.9,5090是12

楼主嘲讽性能提升低,没毛病 ...

compute capalibity主要是图像方面的更新,白皮书里面更新的都是跟图形相关的部分,可以看5个主要更新4个都是服务图形,还有1个不知道计算能不能用。

cuda里面主要的更新是新的vector api服务neural shading,这样都没升版本号,计算形态还没发生变化,或者目前neural shading还用不了,要等13。

我輩樹である 发表于 2025-2-1 20:35

pdvc 发表于 2025-2-1 16:50
1.58bit量化的deepseek已经出来了😛

2.51bit的效果最好,越来越期待m4 ultra,单机可跑。1.58bit dynamic的效果也一般,但媲美q4,有原始版本80%的实力。

一日 发表于 2025-2-1 20:40

我輩樹である 发表于 2025-2-1 04:31
compute capalibity主要是图像方面的更新,白皮书里面更新的都是跟图形相关的部分,可以看5个主要更新4个 ...

Compute capability 主要是计算方面的更新

我輩樹である 发表于 2025-2-1 20:42

一日 发表于 2025-2-1 20:40
Compute capability 主要是计算方面的更新

你可以说下有哪些更新。他是硬件更新就会加这个版本号,不限定于用途。

ssyypdc 发表于 2025-2-1 21:06

这帖子值得看

pdvc 发表于 2025-2-1 21:22

我輩樹である 发表于 2025-2-1 20:35
2.51bit的效果最好,越来越期待m4 ultra,单机可跑。1.58bit dynamic的效果也一般,但媲美q4,有原始版本 ...

4090加128/192内存就能跑起来,爽歪歪😋

nunnally 发表于 2025-2-1 22:45

我感觉以前的真refresh:gtx480→580,gtx680→780的提升都比4080到5080大

Oxyer 发表于 2025-2-1 22:49

写的好专业,总结一句话就是50系拉了一坨?[偷笑]

chungexcy 发表于 2025-2-2 00:09

一日 发表于 2025-2-1 20:10
CUDA和这个没关系。Compute Capability,3090是8.6,4090是8.9,5090是12

楼主嘲讽性能提升低,没毛病 ...

tenser core确实不是refresh,但tenser core以外的不是refresh是什么[偷笑]

chungexcy 发表于 2025-2-2 00:26

tengyun 发表于 2025-2-1 18:31
B站有篇讲解BLACKWELL的架构 PPT的【随便聊聊】RTX 50 Blackwell 架构特性_哔哩哔哩_bilibili https:/ ...

那个视频我后面看了,表示持保留态度。up主主要还是分析未来可能的神经网络渲染,至于是不是未来,得看游戏引擎和游戏开发者怎么选。

再说CUDA,它确实有改,但fp加到int/fp就是对游戏提升为0。老虎在20系发布加独立int单元的时候说,游戏里fp:int一般不会超过1:0.4,所以30/40系的2:1的fp:int完全不是瓶颈。

那位up提到了32个发射,但背后是32个fp+32个int。就算你说的是对的,那你为啥不设计成hopper的48发射?这才是真正能提升游戏对硬件使用率的,配合30/40的32fp+16int,来满足1:0.4的需求。

其次,ad103的晶体管和gb203是差不多的。明明就是改回10系那种CUDA,up主说加了单元我持怀疑态度。。。

PS,我想不出2025年了,谁还需要纯int32性能。。。提升一个几乎没用的东西。。。ai跑int也是用tenser。。。

chungexcy 发表于 2025-2-2 00:35

ghgfhghj 发表于 2025-2-1 18:42
其实不是简单的恢复,每个sm的in32和fp32数量是翻倍了的

对比ad103和gb203,tenser core加了一堆功能,但总的晶体管数量没变。你看die shot,每个sm也差不多大。

我甚至认为假如Ada真的是32fp+16int独立单元,gb都应该改回来,至少改回30系的那种,太浪费晶体管了根本用不上。。。

所以我认为就是恢复10系的CUDA。至少官方可没这么说过有什么额外单元翻倍。

一日 发表于 2025-2-2 00:39

我輩樹である 发表于 2025-2-1 04:42
你可以说下有哪些更新。他是硬件更新就会加这个版本号,不限定于用途。 ...

我不知道还没看,但如果从以前经验来讲,architectural change很小的话,就会出现ampere (3090 not A100) 8.6, Ada (4090) 8.9这样的现象。这次连int32/fp32都改了,不算小变化。只能说反映在市面上游戏上面的提升很小。

chungexcy 发表于 2025-2-2 00:40

一日 发表于 2025-2-1 20:10
CUDA和这个没关系。Compute Capability,3090是8.6,4090是8.9,5090是12

楼主嘲讽性能提升低,没毛病 ...

版本号不代表啥,开发进度而已。现在572.16的CUDA已经是12.8了,上一个版本是12.7,又不是新的12。

一日 发表于 2025-2-2 00:42

chungexcy 发表于 2025-2-1 08:09
tenser core确实不是refresh,但tenser core以外的不是refresh是什么

我们定义不一样。你的refresh指的游戏提升。我说的不是refresh指的他构架的改变。

一日 发表于 2025-2-2 00:46

chungexcy 发表于 2025-2-1 08:40
版本号不代表啥,开发进度而已。现在572.16的CUDA已经是12.8了,上一个版本是12.7,又不是新的12。 ...

这里说的不是cuda 的版本,是compute capability的版本。就是你编译cuda程序的时候需要指定的
页: 1 2 [3] 4 5
查看完整版本: 我来告诉你们为啥50系毫无提升,本质 Ada Refresh。。。