fycmouse
发表于 2025-2-2 00:52
CptQ 发表于 2025-2-1 13:27
性能提升主要靠工艺制程,制程红利快到头了,性能提升就纯堆规模和提频率了,功耗的提升等于性能的提升。 ...
老黄也好歹要用点心提升一下芯片效率了,制程不是马桶,什么锅都能背的!
ghgfhghj
发表于 2025-2-2 00:53
chungexcy 发表于 2025-2-2 00:35
对比ad103和gb203,tenser core加了一堆功能,但总的晶体管数量没变。你看die shot,每个sm也差不多大。
...
我是指和10系比翻倍。。。和ada比就是没啥提升啊,打游戏需要那么多整数单元干嘛。。。
nlnjnj
发表于 2025-2-2 00:58
nApoleon 发表于 2025-2-1 12:52
5080真实没自宫的400wBIOS其实是有20%的性能提升的…
400w 功耗其实还是太高了 散热压力其实不小[流汗]
gtyy
发表于 2025-2-2 01:18
1) 沒對手
2) AI比較有賺,大力推行AI運算算法
3) 要有限制,算力不能超太多, 要一邊跟政府談判, 一邊研發
af_x_if
发表于 2025-2-2 14:18
pdvc 发表于 2025-2-1 16:50
1.58bit量化的deepseek已经出来了😛
我的意思是原生支持这个格式来提升账面数字。
32位ALU怎么也能单周期跑16条1.58bit吧,这就能比现在那FP4说事再翻倍了。
平安是福
发表于 2025-2-22 14:15
zhoubi 发表于 2025-2-1 14:21
blackwell拉稀有点像rdna3,都是来自架构的改进取得的收益太低。这次84sm的5080只比80sm的4080强10%多,计 ...
rdna3的浮点单元其实没翻倍,做的其实是类似n卡20系的,一个simd32可以跑int32也可以跑fp32,但是总量没增加。从30系开始,英伟达的卡里面是实打实多了一个fp32
netjunegg
发表于 2025-2-22 14:35
nv开始走intel几年前的老路了吗? 第二个牙膏厂?
T43P
发表于 2025-2-22 15:29
意思是 买 4070S 么
fpd92axv
发表于 2025-2-22 15:54
T43P 发表于 2025-2-22 15:29
意思是 买 4070S 么
不急用等618降到史低再买50系
夢裏不覺秋已深
发表于 2025-2-22 16:12
除了DLSS4,最大的提升是价格[流汗]
ghgfhghj
发表于 2025-2-22 16:54
本帖最后由 ghgfhghj 于 2025-2-22 17:09 编辑
平安是福 发表于 2025-2-22 14:15
rdna3的浮点单元其实没翻倍,做的其实是类似n卡20系的,一个simd32可以跑int32也可以跑fp32,但是总量没 ...
你一句话都没说对
20系是唯一一代int32和fp32全部分离的
30和40系是其中一半单元可以可以跑fp32或者int32,另一半只跑int32
除此以外的n卡全部都是所有单元既可以跑fp32或者int32,也就是说50系又改回了10系那样
而rdna3和安培是一样的,没能发挥出理论性能是其他原因
实际情况是20系才是特殊的,他的规模比要纸面看上去高,所以才造成30系看上去规模巨大
3060和1080ti核心一样的28sm 3584cuda,性能性能别说双倍了,一倍都难
平安是福
发表于 2025-2-22 17:13
ghgfhghj 发表于 2025-2-22 16:54
你一句话都没说对
20系是唯一一代int32和fp32全部分离的
大哥你才没搞懂吧?你看看这张图先
ghgfhghj
发表于 2025-2-22 17:14
本帖最后由 ghgfhghj 于 2025-2-22 17:17 编辑
平安是福 发表于 2025-2-22 17:13
大哥你才没搞懂吧?你看看这张图先
这张图是在告诉你这个游戏fp32和int32的占比,和我说的毫无关系,而且图里的三张卡本来核心规模就差别巨大能比出什么?
从3060对比1080ti就可以知道30系没有所谓的fp32翻倍,更何况50系又改回去了
你还是根本没搞明白,除了图灵外,所有的n卡都是全部单元都可以跑fp32的
平安是福
发表于 2025-2-22 17:18
本帖最后由 平安是福 于 2025-2-22 17:19 编辑
ghgfhghj 发表于 2025-2-22 16:54
你一句话都没说对
20系是唯一一代int32和fp32全部分离的
英伟达官方的示例。100个指令里有38条整数,62条浮点,大概浮点指令和整数指令的比例是1比0.6,所以就算翻倍fp32 也不能把性能完全翻倍,因为他的整数单元没有翻倍
ghgfhghj
发表于 2025-2-22 17:20
本帖最后由 ghgfhghj 于 2025-2-22 17:25 编辑
平安是福 发表于 2025-2-22 17:18
英伟达官方的示例。100个指令里有38条整数,62条浮点,大概浮点指令和整数指令的比例是1比0.4,所以就算 ...
无论你怎么算除了20系都是一样的,因为他们都没有专门的整数单元,都需要从fp32里面减去对应数量,所以说20系才是特殊的
实际上30系的提升刚好是lz这个帖子要说的rops数量和gpc的关系,因为30系的rops不再绑定缓存和显存控制器,而是绑定gpc
3070是和2080ti一样的6gpc,但因为不绑定显存控制器了,所以rops反而比2080ti还要多8个
平安是福
发表于 2025-2-22 17:28
ghgfhghj 发表于 2025-2-22 17:20
无论你怎么算除了20系都是一样的,因为他们都没有专门的整数单元,都需要从fp32里面减去对应数量,所以说 ...
20系开始整数和浮点是可以并行的。一组30系的cuda里有一组浮点,还有一组整数浮点的双功能单元,确实有2组fp32,这样说清楚了没有?
ghgfhghj
发表于 2025-2-22 17:30
平安是福 发表于 2025-2-22 17:28
20系开始整数和浮点是可以并行的。一组30系的cuda里有一组浮点,还有一组整数浮点的双功能单元,确实有2 ...
你是真能胡说,n卡对cuda数量的定义就是fp32单元的数量,一个cuda有2组fp32都说得出来[震惊]
平安是福
发表于 2025-2-22 17:34
ghgfhghj 发表于 2025-2-22 17:30
你是真能胡说,n卡对cuda数量的定义就是fp32单元的数量,一个cuda有2组fp32都说得出来 ...
老黄是不当人,但你这样多少是魔怔了。双功能单元不能跑fp32,是吧?
平安是福
发表于 2025-2-22 17:35
ghgfhghj 发表于 2025-2-22 17:30
你是真能胡说,n卡对cuda数量的定义就是fp32单元的数量,一个cuda有2组fp32都说得出来 ...
那按你的定义是必须要一组int32+fp32才算一整个cuda咯,不算fp32是吗
ghgfhghj
发表于 2025-2-22 17:36
平安是福 发表于 2025-2-22 17:35
那按你的定义是必须要一组int32+fp32才算一整个cuda咯,不算fp32是吗
最多能有多少fp32就是有多少cuda
1080ti和3060的cuda数量和fp32性能基本是一样的
说了一万次只有20系是特殊的,只有他单独做了int32单元
平安是福
发表于 2025-2-22 17:37
ghgfhghj 发表于 2025-2-22 17:20
无论你怎么算除了20系都是一样的,因为他们都没有专门的整数单元,都需要从fp32里面减去对应数量,所以说 ...
那照你的定义解释解释为什么3070能超2080至少20%以上呢?
ghgfhghj
发表于 2025-2-22 17:38
平安是福 发表于 2025-2-22 17:37
那照你的定义解释解释为什么3070能超2080至少20%以上呢?
6gpc vs 4gpc 64rops vs 96rops 完全符合楼主的帖子的说法
平安是福
发表于 2025-2-22 17:40
ghgfhghj 发表于 2025-2-22 17:36
最多能有多少fp32就是有多少cuda
1080ti和3060的cuda数量和fp32性能基本是一样的
照你的说法那3060ti性能应该和1070ti接近是不
平安是福
发表于 2025-2-22 17:41
ghgfhghj 发表于 2025-2-22 17:36
最多能有多少fp32就是有多少cuda
1080ti和3060的cuda数量和fp32性能基本是一样的
你先把我发的那图看懂吧。100条指令,1060跑了100个周期,1660ti跑了62个周期,3060ti花了不到62个周期
ghgfhghj
发表于 2025-2-22 17:47
平安是福 发表于 2025-2-22 17:41
你先把我发的那图看懂吧。100条指令,1060跑了100个周期,1660ti跑了62个周期,3060ti花了不到62个周期 ...
3060ti规模本来就远远大于1060和1660ti
ghgfhghj
发表于 2025-2-22 17:48
本帖最后由 ghgfhghj 于 2025-2-22 17:49 编辑
平安是福 发表于 2025-2-22 17:40
照你的说法那3060ti性能应该和1070ti接近是不
3060ti是5gpc 1070ti是4gpc 加上gddr5 vs gddr6 差55%不是很合理吗,显存带宽都快翻倍了
平安是福
发表于 2025-2-22 17:51
ghgfhghj 发表于 2025-2-22 17:47
3060ti规模本来就远远大于1060和1660ti
你不必这样耍赖的,你应该懂我指的是每个单元每周期能干的事。10系浮点和整数根本就是无法并行,各自只能算0.5这样。20系开始浮点和整数独立,可并行,30系开始 有一组“双功能单元”既可以跑整数也可以跑浮点,另外还多出来一组浮点单元。
平安是福
发表于 2025-2-22 17:53
ghgfhghj 发表于 2025-2-22 17:48
3060ti是5gpc 1070ti是4gpc 加上gddr5 vs gddr6 差55%不是很合理吗,显存带宽都快翻倍了
...
5gpc和4gpc的差距能到55% 是吧?你说显存,那5080显存带宽几乎比4080翻倍,性能怎么没看到涨呢
ghgfhghj
发表于 2025-2-22 17:54
平安是福 发表于 2025-2-22 17:51
你不必这样耍赖的,你应该懂我指的是每个单元每周期能干的事。10系浮点和整数根本就是无法并行,各自只能 ...
你别脑补了,10系和50系就是一样的
ghgfhghj
发表于 2025-2-22 17:54
本帖最后由 ghgfhghj 于 2025-2-22 17:57 编辑
平安是福 发表于 2025-2-22 17:53
5gpc和4gpc的差距能到55% 是吧?你说显存,那5080显存带宽几乎比4080翻倍,性能怎么没看到涨呢 ...
那你告诉我3060为什么打不过1080ti,另外5080只比4080显存带宽高34%,远远没有翻倍,不要再脑补东西了