今天真的算是领教了什么叫做"挖个坑,然后等着你跳"...

litguy · 发表于 2022-12-10 08:54

aasa0001 发表于 2022-12-9 20:22
能吃满都是神优化，10%以下才是渣优化

显然不是这么简单，我司收购老外产品，在国产 CPU 上面很多时候 100%，其实没干活，线程太多，在抢锁，软件架构比较老，大量依赖锁同步，ARM 又没有 x86 那样高效的锁实现，另一个是 64 核心 ARM 垮 8 个 numa，内存的垮 numa 也有不少开销，so，吃满也未必是好事，具体问题具体分析

tim6252 · 发表于 2022-12-10 14:07

litguy 发表于 2022-12-10 08:54
显然不是这么简单，我司收购老外产品，在国产 CPU 上面很多时候 100%，其实没干活，线程太多，在抢锁，软 ...

层主是专业的果然解答靠谱。这里其实gpu压片的时候就编码那部分单元在工作，这部分对于更大规模的3d单元就是很小占比的。

aasa0001 · 发表于 2022-12-11 18:11

本帖最后由 aasa0001 于 2022-12-11 18:14 编辑

litguy 发表于 2022-12-10 08:54
显然不是这么简单，我司收购老外产品，在国产 CPU 上面很多时候 100%，其实没干活，线程太多，在抢锁，软 ...

你不能拿辣鸡的国产CPU（这里直接接受你的分析）和上下文里的主流PC/server比。

最重要的，能多线程拉满跑到100%，正常来说已经有比较好的代码基础了；距离提升可能就只有一步之遥。
真正的辣鸡代码，根本无法做多线程。

PS:
你说ARM的锁辣鸡，我不信，不可能连这个基本的常用场景都不行 (核很多的情况除外)。
何况按照M1的分析，一大亮点就是锁特别高效，(无竞争时)远超x86 (我推测是牺牲了多核升单核)。

x86的锁(lock-prefix)效率并不怎么高，挺容易成为瓶颈。如果场景里能用load/store代替(一般不可能)，可能快不少。

PS2:
能提升就是在干活。
64C比1C快20%那也是有效干活，除非<100%那才算徒劳。

litguy · 发表于 2022-12-12 12:32

aasa0001 发表于 2022-12-11 18:11
你不能拿辣鸡的国产CPU（这里直接接受你的分析）和上下文里的主流PC/server比。

最重要的，能多线程拉满 ...

https://zhuanlan.zhihu.com/p/129276779
这个还是说 ARM V8.2
V8.1 相对于我们用的 V8 就是飞跃
即使如此，V8.2 都孱弱不堪，不是你相信不相信的问题

litguy · 发表于 2022-12-12 12:37

aasa0001 发表于 2022-12-11 18:11
你不能拿辣鸡的国产CPU（这里直接接受你的分析）和上下文里的主流PC/server比。

最重要的，能多线程拉满 ...

最近弄扩展性，大概是 70% 线性加速比，和甲方要求的 80% 都是有差异的，你那个 64C 比 1C 快 20%，那只能自娱自乐了，用户眼里至少需要 1C x 64 * 0.8 才可能付款

aasa0001 · 发表于 2022-12-12 22:40

litguy 发表于 2022-12-12 12:37
最近弄扩展性，大概是 70% 线性加速比，和甲方要求的 80% 都是有差异的，你那个 64C 比 1C 快 20%，那只 ...

那是你的一个甲方而已，不代表别人。
而且要求加速比本来就比较搞笑，正常逻辑不是要绝对性能，就是要per-core/per-thread的成本。

server总是自带并行，scaling差就亏了；而pc/workstation基本就是单一任务，只要有提升就是赢。

aasa0001 · 发表于 2022-12-12 22:53

litguy 发表于 2022-12-12 12:32
https://zhuanlan.zhihu.com/p/129276779
这个还是说 ARM V8.2
V8.1 相对于我们用的 V8 就是飞跃

所以你想说什么？只是想喷一下你的目标平台吗？
v1=8.4，m1=v8.5，n2=9.0。

litguy · 发表于 2022-12-13 13:31

aasa0001 发表于 2022-12-12 22:53
所以你想说什么？只是想喷一下你的目标平台吗？
v1=8.4，m1=v8.5，n2=9.0。

不是喷目标平台，是告诉你 ARM V8 锁性能的问题

KMDYX · 发表于 2022-12-13 14:32

nApoleon 发表于 2022-12-8 23:03
我懂你意思,现在尴尬的就是剪辑过程核显开着会不够流畅,但如果关了,导出的速度会大大降低… ...

我怎么记得一两年前的win10某一个版本更新就能让pr、ae调用不输出的核显了啊。当时我用的是87k+1070ti，是可以硬件加速的

zhgna · 发表于 2022-12-13 14:33

2千元的quest2，播放8k视频一点问题都没有，一般pc吃奶的劲用上都是ppt效果

wangguan8602745 · 发表于 2022-12-13 14:44

新手最近刚用pr 请问朋友的机器基本配置和我一样
但是cpu是12700f不带核显
我是12700k
我确实比他流畅就是因为有核显的原因？

wangguan8602745 · 发表于 2022-12-13 14:44

新手最近刚用pr 请问朋友的机器基本配置和我一样
但是cpu是12700f不带核显
我是12700k
我确实比他流畅就是因为有核显的原因？

KMDYX · 发表于 2022-12-13 14:52

nApoleon 发表于 2022-12-8 23:03
我懂你意思,现在尴尬的就是剪辑过程核显开着会不够流畅,但如果关了,导出的速度会大大降低… ...

记得当时还有各种办法去同时调用n卡跟核显，一个是在核显上再接一个hdmi设备，一个是用软件模拟。。。结果后面win10 某一个版本更新后，就什么设置都不用，只要同时打开独显跟核显，用独显输出也直接能调用核显来给视频回访、导出来加速

aasa0001 · 发表于 2022-12-13 20:12

litguy 发表于 2022-12-13 13:31
不是喷目标平台，是告诉你 ARM V8 锁性能的问题

和我的回复/本帖有关的是x86 pc/ws。
而和x86生态重叠的arm是neoverse和m1。
来路不明的v8.0实现完全离题，我也毫无兴趣了解。

litguy · 发表于 2022-12-14 12:35

aasa0001 发表于 2022-12-13 20:12
和我的回复/本帖有关的是x86 pc/ws。
而和x86生态重叠的arm是neoverse和m1。
来路不明的v8.0实现完全离题 ...

没打算让你了解
国产飞腾就是 V8.0 结构
信创的主力 CPU，大量出货呢
只是针对你回复我而回复你
不是你认为重叠的就是重叠的

vINyLogY · 发表于 2022-12-15 06:12

Intel 有 ARC + iGPU 的 Deeplink 混合编解码，似乎至少达芬奇是支持的？ pic_disp (1).jpg

warelf2 · 发表于 2022-12-15 08:34

现在剪片子达芬奇的作用越来越大，以前只是单独tc用，现在你完全不用pr也没啥问题，原地踏步太多年了，至少ae还给你整了个多线程渲染支持，pr还是继续躺平，所有硬件里大容量固态的收益最高

beowulf · 发表于 2022-12-15 09:14

nApoleon 发表于 2022-12-8 20:48
我当时瞬间就理解为何M1能功耗性能比那么强了...

就像gpu编程刚火那几年，随便什么ppt上都是几百倍的性能提升，
都是软硬件有针对性的开发。

beowulf · 发表于 2022-12-15 09:15

PPXG 发表于 2022-12-8 22:55
隔壁某些工业软件更是软件PY的代表
一个入门的Quadro T400，某软件拖模比2080Ti都流畅。。。。。 ...

历来如此，要不那些quadro这么多年怎么骗钱啊

beowulf · 发表于 2022-12-15 09:17

easyeiji 发表于 2022-12-9 15:32
其实就是套娃，一层又一层，最后效率一点点

或者说软件很多都是屎山。

账号		自动登录	找回密码
密码			加入我们

[CPU] 今天真的算是领教了什么叫做"挖个坑,然后等着你跳"...

浏览过的版块