找回密码
 加入我们
搜索
      
楼主: nApoleon

[CPU] 今天真的算是领教了什么叫做"挖个坑,然后等着你跳"...

[复制链接]
发表于 2022-12-10 08:54 来自手机 | 显示全部楼层
aasa0001 发表于 2022-12-9 20:22
能吃满都是神优化,10%以下才是渣优化

显然不是这么简单,我司收购老外产品,在国产 CPU 上面很多时候 100%,其实没干活,线程太多,在抢锁,软件架构比较老,大量依赖锁同步,ARM 又没有 x86 那样高效的锁实现,另一个是 64 核心 ARM 垮 8 个 numa,内存的垮 numa 也有不少开销,so,吃满也未必是好事,具体问题具体分析
发表于 2022-12-10 14:07 来自手机 | 显示全部楼层
litguy 发表于 2022-12-10 08:54
显然不是这么简单,我司收购老外产品,在国产 CPU 上面很多时候 100%,其实没干活,线程太多,在抢锁,软 ...

层主是专业的果然解答靠谱。 这里其实gpu压片的时候就编码那部分单元在工作,这部分对于更大规模的3d单元就是很小占比的。
发表于 2022-12-11 18:11 | 显示全部楼层
本帖最后由 aasa0001 于 2022-12-11 18:14 编辑
litguy 发表于 2022-12-10 08:54
显然不是这么简单,我司收购老外产品,在国产 CPU 上面很多时候 100%,其实没干活,线程太多,在抢锁,软 ...


你不能拿辣鸡的国产CPU(这里直接接受你的分析)和上下文里的主流PC/server比。

最重要的,能多线程拉满跑到100%,正常来说已经有比较好的代码基础了;距离提升可能就只有一步之遥。
真正的辣鸡代码,根本无法做多线程。

PS:
你说ARM的锁辣鸡,我不信,不可能连这个基本的常用场景都不行 (核很多的情况除外)。
何况按照M1的分析,一大亮点就是锁特别高效,(无竞争时)远超x86 (我推测是牺牲了多核升单核)。

x86的锁(lock-prefix)效率并不怎么高,挺容易成为瓶颈。如果场景里能用load/store代替(一般不可能),可能快不少。

PS2:
能提升就是在干活。
64C比1C快20%那也是有效干活,除非<100%那才算徒劳。
发表于 2022-12-12 12:32 | 显示全部楼层
aasa0001 发表于 2022-12-11 18:11
你不能拿辣鸡的国产CPU(这里直接接受你的分析)和上下文里的主流PC/server比。

最重要的,能多线程拉满 ...

https://zhuanlan.zhihu.com/p/129276779
这个还是说 ARM V8.2
V8.1 相对于我们用的 V8 就是飞跃
即使如此,V8.2 都孱弱不堪,不是你相信不相信的问题
发表于 2022-12-12 12:37 | 显示全部楼层
aasa0001 发表于 2022-12-11 18:11
你不能拿辣鸡的国产CPU(这里直接接受你的分析)和上下文里的主流PC/server比。

最重要的,能多线程拉满 ...

最近弄扩展性,大概是 70% 线性加速比,和甲方要求的 80% 都是有差异的,你那个 64C 比 1C 快 20%,那只能自娱自乐了,用户眼里至少需要 1C x 64 * 0.8 才可能付款
发表于 2022-12-12 22:40 | 显示全部楼层
litguy 发表于 2022-12-12 12:37
最近弄扩展性,大概是 70% 线性加速比,和甲方要求的 80% 都是有差异的,你那个 64C 比 1C 快 20%,那只 ...

那是你的一个甲方而已,不代表别人。
而且要求加速比本来就比较搞笑,正常逻辑不是要绝对性能,就是要per-core/per-thread的成本。

server总是自带并行,scaling差就亏了;而pc/workstation基本就是单一任务,只要有提升就是赢。
发表于 2022-12-12 22:53 | 显示全部楼层
litguy 发表于 2022-12-12 12:32
https://zhuanlan.zhihu.com/p/129276779
这个还是说 ARM V8.2
V8.1 相对于我们用的 V8 就是飞跃

所以你想说什么?只是想喷一下你的目标平台吗?
v1=8.4,m1=v8.5,n2=9.0。
发表于 2022-12-13 13:31 | 显示全部楼层
aasa0001 发表于 2022-12-12 22:53
所以你想说什么?只是想喷一下你的目标平台吗?
v1=8.4,m1=v8.5,n2=9.0。

不是喷目标平台,是告诉你 ARM V8 锁性能的问题
发表于 2022-12-13 14:32 | 显示全部楼层
nApoleon 发表于 2022-12-8 23:03
我懂你意思,现在尴尬的就是剪辑过程核显开着会不够流畅,但如果关了,导出的速度会大大降低… ...

我怎么记得一两年前的win10某一个版本更新就能让pr、ae调用不输出的核显了啊。当时我用的是87k+1070ti,是可以硬件加速的
发表于 2022-12-13 14:33 | 显示全部楼层
2千元的quest2,播放8k视频一点问题都没有,一般pc吃奶的劲用上都是ppt效果
发表于 2022-12-13 14:44 | 显示全部楼层
新手最近刚用pr 请问朋友的机器基本配置和我一样
但是cpu是12700f不带核显
我是12700k
我确实比他流畅就是因为有核显的原因?
发表于 2022-12-13 14:44 | 显示全部楼层

新手最近刚用pr 请问朋友的机器基本配置和我一样
但是cpu是12700f不带核显
我是12700k
我确实比他流畅就是因为有核显的原因?
发表于 2022-12-13 14:52 | 显示全部楼层
nApoleon 发表于 2022-12-8 23:03
我懂你意思,现在尴尬的就是剪辑过程核显开着会不够流畅,但如果关了,导出的速度会大大降低… ...

记得当时还有各种办法去同时调用n卡跟核显,一个是在核显上再接一个hdmi设备,一个是用软件模拟。。。结果后面win10 某一个版本更新后,就什么设置都不用,只要同时打开独显跟核显,用独显输出也直接能调用核显来给视频回访、导出来加速
发表于 2022-12-13 20:12 | 显示全部楼层
litguy 发表于 2022-12-13 13:31
不是喷目标平台,是告诉你 ARM V8 锁性能的问题

和我的回复/本帖有关的是x86 pc/ws。
而和x86生态重叠的arm是neoverse和m1。
来路不明的v8.0实现完全离题,我也毫无兴趣了解。
发表于 2022-12-14 12:35 | 显示全部楼层
aasa0001 发表于 2022-12-13 20:12
和我的回复/本帖有关的是x86 pc/ws。
而和x86生态重叠的arm是neoverse和m1。
来路不明的v8.0实现完全离题 ...

没打算让你了解
国产飞腾就是 V8.0 结构
信创的主力 CPU,大量出货呢
只是针对你回复我而回复你
不是你认为重叠的就是重叠的
发表于 2022-12-15 06:12 | 显示全部楼层
Intel 有 ARC + iGPU 的 Deeplink 混合编解码,似乎至少达芬奇是支持的? pic_disp (1).jpg
发表于 2022-12-15 08:34 来自手机 | 显示全部楼层
现在剪片子达芬奇的作用越来越大,以前只是单独tc用,现在你完全不用pr也没啥问题,原地踏步太多年了,至少ae还给你整了个多线程渲染支持,pr还是继续躺平,所有硬件里大容量固态的收益最高
发表于 2022-12-15 09:14 | 显示全部楼层
nApoleon 发表于 2022-12-8 20:48
我当时瞬间就理解为何M1能功耗性能比那么强了...

就像gpu编程刚火那几年,随便什么ppt上都是几百倍的性能提升,
都是软硬件有针对性的开发。
发表于 2022-12-15 09:15 | 显示全部楼层
PPXG 发表于 2022-12-8 22:55
隔壁某些工业软件更是软件PY的代表
一个入门的Quadro T400,某软件拖模比2080Ti都流畅。。。。。 ...

历来如此,要不那些quadro这么多年怎么骗钱啊
发表于 2022-12-15 09:17 | 显示全部楼层
easyeiji 发表于 2022-12-9 15:32
其实就是套娃,一层又一层,最后效率一点点

或者说软件很多都是屎山。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-28 13:33 , Processed in 0.026126 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表