fdhfdhd
发表于 2025-2-1 16:34
[流汗]突然想起来50系还换了GD7
现在越看越像这GD7对比GD6X只是徒增功耗发热,更高带宽完全没有换到提升的样子
守护灬纯洁之心
发表于 2025-2-1 16:35
PPXG 发表于 2025-2-1 14:43
ada refresh不至于,单纯refresh就不需要搞这么多为了AI服务的硬件变动了,以及和微软联合搞的神经网络渲染 ...
但是这些改进不一定是硬件层面的,40系只是没吃到红利……
守护灬纯洁之心
发表于 2025-2-1 16:38
zhoubi 发表于 2025-2-1 14:21
blackwell拉稀有点像rdna3,都是来自架构的改进取得的收益太低。这次84sm的5080只比80sm的4080强10%多,计 ...
RDNA3的FP32是dual issues带来的,仅仅只是理论FP32翻倍,FP16压根没有变化
安培的FP32应该是真塞了一倍的FP32单元进去的,所以才有了提升。但这个代价就是晶体管也暴涨,AMD小家子气显然不愿意干这种买卖(多了一倍的FP32晶体管,性能才多30%,如果等比例扩大其他单元的话肯定不止30%)
yy323818
发表于 2025-2-1 16:40
50系的4N工艺相对5N工艺密度提升太小,可以说基本没啥变化!因此在增加的晶体管有限的条件下,是选择AI计算性能还是光栅图形渲染性能,老黄选择了AI计算性能!因为增加的SM晶体管数量和AI性能是线性的,估计下一代60系到了3N/2N工艺,密度增加了,就能空出来增加光栅性能的空间了。
pdvc
发表于 2025-2-1 16:50
af_x_if 发表于 2025-2-1 13:55
靠FP4呗
这种刷分办法早晚原生支持1.58bit格式……
1.58bit量化的deepseek已经出来了😛
wuxi001
发表于 2025-2-1 17:03
TSMC 越来越贵,AI芯片又供不应求,哪有空专研显卡。
yylwld
发表于 2025-2-1 17:03
chungexcy 发表于 2025-2-1 13:03
你说的毫无意义,当下版本的GB202-300、GB203-400、GB203-300就这表现。
你和他说这么多没意义,他肯定白皮书都没打开过。[偷笑]
ghgfhghj
发表于 2025-2-1 17:08
chungexcy 发表于 2025-2-1 16:29
同频确实打不过,显存都差一节。但tpu里面的2080ti其实也和3070差不多,那会儿也还没有新游戏。
主要还 ...
所以2080ti是980ti后最能超的n卡,250w确实喂不饱68sm的规模
当年老黄还是太保守了,780ti到2080ti一直都是250w
8xwob3ko
发表于 2025-2-1 17:42
赫敏 发表于 2025-2-1 13:51
如果是临时拉出来凑数的游戏卡,计算卡岂不是翻车更狠?
Blackwell的计算卡确实翻车更大
lgblee
发表于 2025-2-1 17:53
ghgfhghj 发表于 2025-2-1 16:05
3070理论性能根本打不过2080ti,只是老黄不给20系rebar导致2080ti新游戏不行
虚幻4老游戏3070基本打平2080Ti
lgblee
发表于 2025-2-1 17:55
ghgfhghj 发表于 2025-2-1 17:08
所以2080ti是980ti后最能超的n卡,250w确实喂不饱68sm的规模
当年老黄还是太保守了,780ti到2080ti一直 ...
20系花屏门,历历在目
1080Ti 超3%就极限了
tengyun
发表于 2025-2-1 18:31
本帖最后由 tengyun 于 2025-2-1 18:35 编辑
B站有篇讲解BLACKWELL的架构 PPT的【随便聊聊】RTX 50 Blackwell 架构特性_哔哩哔哩_bilibili https://www.bilibili.com/video/BV1ocFLetEUk/?spm_id_from=333.337.search-card.all.click
50系其实 CUDA改动相比40以前改动很大。(其实就恢复到10系的配置)
打通tensor CORE和CUDA的渲染配置。 以后是要让tensor core 辅助参与渲染(这个就很战未来,当然也可能只是画大饼)
光追+了几个新的算法。
总结:就是这些改动 跑当下的游戏和以前的游戏,就只是吃规格膨胀的红利。架构调整是有往战未来的改动。
ghgfhghj
发表于 2025-2-1 18:42
tengyun 发表于 2025-2-1 18:31
B站有篇讲解BLACKWELL的架构 PPT的【随便聊聊】RTX 50 Blackwell 架构特性_哔哩哔哩_bilibili https:/ ...
其实不是简单的恢复,每个sm的in32和fp32数量是翻倍了的
一日
发表于 2025-2-1 20:10
我輩樹である 发表于 2025-1-31 21:05
cuda大版本也没升,pascal是8,turing是10,ampere是11,ada是12,blackwell还是12。
CUDA和这个没关系。Compute Capability,3090是8.6,4090是8.9,5090是12
楼主嘲讽性能提升低,没毛病,但结构变化这么大,压根就不是refresh。
13655640213
发表于 2025-2-1 20:26
4080和5080对比,核心提升不是非常大“提高了良品能力” 其次g6x和g7显存颗粒的提升,dlss算是美容升级吧
我輩樹である
发表于 2025-2-1 20:31
一日 发表于 2025-2-1 20:10
CUDA和这个没关系。Compute Capability,3090是8.6,4090是8.9,5090是12
楼主嘲讽性能提升低,没毛病 ...
compute capalibity主要是图像方面的更新,白皮书里面更新的都是跟图形相关的部分,可以看5个主要更新4个都是服务图形,还有1个不知道计算能不能用。
cuda里面主要的更新是新的vector api服务neural shading,这样都没升版本号,计算形态还没发生变化,或者目前neural shading还用不了,要等13。
我輩樹である
发表于 2025-2-1 20:35
pdvc 发表于 2025-2-1 16:50
1.58bit量化的deepseek已经出来了😛
2.51bit的效果最好,越来越期待m4 ultra,单机可跑。1.58bit dynamic的效果也一般,但媲美q4,有原始版本80%的实力。
一日
发表于 2025-2-1 20:40
我輩樹である 发表于 2025-2-1 04:31
compute capalibity主要是图像方面的更新,白皮书里面更新的都是跟图形相关的部分,可以看5个主要更新4个 ...
Compute capability 主要是计算方面的更新
我輩樹である
发表于 2025-2-1 20:42
一日 发表于 2025-2-1 20:40
Compute capability 主要是计算方面的更新
你可以说下有哪些更新。他是硬件更新就会加这个版本号,不限定于用途。
ssyypdc
发表于 2025-2-1 21:06
这帖子值得看
pdvc
发表于 2025-2-1 21:22
我輩樹である 发表于 2025-2-1 20:35
2.51bit的效果最好,越来越期待m4 ultra,单机可跑。1.58bit dynamic的效果也一般,但媲美q4,有原始版本 ...
4090加128/192内存就能跑起来,爽歪歪😋
nunnally
发表于 2025-2-1 22:45
我感觉以前的真refresh:gtx480→580,gtx680→780的提升都比4080到5080大
Oxyer
发表于 2025-2-1 22:49
写的好专业,总结一句话就是50系拉了一坨?[偷笑]
chungexcy
发表于 2025-2-2 00:09
一日 发表于 2025-2-1 20:10
CUDA和这个没关系。Compute Capability,3090是8.6,4090是8.9,5090是12
楼主嘲讽性能提升低,没毛病 ...
tenser core确实不是refresh,但tenser core以外的不是refresh是什么[偷笑]
chungexcy
发表于 2025-2-2 00:26
tengyun 发表于 2025-2-1 18:31
B站有篇讲解BLACKWELL的架构 PPT的【随便聊聊】RTX 50 Blackwell 架构特性_哔哩哔哩_bilibili https:/ ...
那个视频我后面看了,表示持保留态度。up主主要还是分析未来可能的神经网络渲染,至于是不是未来,得看游戏引擎和游戏开发者怎么选。
再说CUDA,它确实有改,但fp加到int/fp就是对游戏提升为0。老虎在20系发布加独立int单元的时候说,游戏里fp:int一般不会超过1:0.4,所以30/40系的2:1的fp:int完全不是瓶颈。
那位up提到了32个发射,但背后是32个fp+32个int。就算你说的是对的,那你为啥不设计成hopper的48发射?这才是真正能提升游戏对硬件使用率的,配合30/40的32fp+16int,来满足1:0.4的需求。
其次,ad103的晶体管和gb203是差不多的。明明就是改回10系那种CUDA,up主说加了单元我持怀疑态度。。。
PS,我想不出2025年了,谁还需要纯int32性能。。。提升一个几乎没用的东西。。。ai跑int也是用tenser。。。
chungexcy
发表于 2025-2-2 00:35
ghgfhghj 发表于 2025-2-1 18:42
其实不是简单的恢复,每个sm的in32和fp32数量是翻倍了的
对比ad103和gb203,tenser core加了一堆功能,但总的晶体管数量没变。你看die shot,每个sm也差不多大。
我甚至认为假如Ada真的是32fp+16int独立单元,gb都应该改回来,至少改回30系的那种,太浪费晶体管了根本用不上。。。
所以我认为就是恢复10系的CUDA。至少官方可没这么说过有什么额外单元翻倍。
一日
发表于 2025-2-2 00:39
我輩樹である 发表于 2025-2-1 04:42
你可以说下有哪些更新。他是硬件更新就会加这个版本号,不限定于用途。 ...
我不知道还没看,但如果从以前经验来讲,architectural change很小的话,就会出现ampere (3090 not A100) 8.6, Ada (4090) 8.9这样的现象。这次连int32/fp32都改了,不算小变化。只能说反映在市面上游戏上面的提升很小。
chungexcy
发表于 2025-2-2 00:40
一日 发表于 2025-2-1 20:10
CUDA和这个没关系。Compute Capability,3090是8.6,4090是8.9,5090是12
楼主嘲讽性能提升低,没毛病 ...
版本号不代表啥,开发进度而已。现在572.16的CUDA已经是12.8了,上一个版本是12.7,又不是新的12。
一日
发表于 2025-2-2 00:42
chungexcy 发表于 2025-2-1 08:09
tenser core确实不是refresh,但tenser core以外的不是refresh是什么
我们定义不一样。你的refresh指的游戏提升。我说的不是refresh指的他构架的改变。
一日
发表于 2025-2-2 00:46
chungexcy 发表于 2025-2-1 08:40
版本号不代表啥,开发进度而已。现在572.16的CUDA已经是12.8了,上一个版本是12.7,又不是新的12。 ...
这里说的不是cuda 的版本,是compute capability的版本。就是你编译cuda程序的时候需要指定的