找回密码
 加入我们
搜索
      
楼主: privater

[CPU] 苹果的 M1 - M4 规格和性能进步简表

  [复制链接]
发表于 2024-12-6 19:07 | 显示全部楼层
netlzh 发表于 2024-12-3 19:16
你最好实际用用再发表意见,

我 21 年买的手上 M1pro,到现在公司一群用十三代酷睿和 8845hs 的,都说不 ...

行了吧 我用苹果十多年了 现在手上两台一台m1max一台m3pro
发表于 2024-12-6 21:45 | 显示全部楼层
MAC 系统相较于 windows 稳定性高了一个数量级。
发表于 2024-12-14 15:36 | 显示全部楼层
尬吹 苹果自m1系列以来基本原地踏步,符合资本家的尿性,现在m4系列只不过在补以前的课,真有心好好做一下系统,大小核调度优化烂到家,软件一塌糊涂,硬件镶金,又开始走安吉拉的老路线,老乔知道了估计要拍死库克。
发表于 2025-1-9 17:40 | 显示全部楼层
好专业的描述,学习了。
发表于 2025-1-9 18:03 | 显示全部楼层
看到有传闻说M5的CPU和GPU放弃使用统一内存架构...
发表于 2025-1-9 20:28 | 显示全部楼层
zhaofire 发表于 2024-11-10 14:19
我倒非常赞成统一内存。
用GPU跑渲染,所有数据都是从经过PCIE,再经过CPU,再从内存里调用,传输回显存。
...

统一内存,比如我在文本录入,偶尔才玩游戏,显卡都没怎么跑,此时显存浪费了。
发表于 2025-1-9 20:35 | 显示全部楼层
zhuifeng88 发表于 2024-11-9 19:26
哪有什么性价比...皮衣多卡就完事了, 推理拿一排8/12g/16g卡便宜的很, 随便找个x99主板插满就行
总花费1w ...

那要这么说跑推理完全不需要大显存高端gpu啊,这个组合的性价比不是吊打一切专业方案么?
发表于 2025-1-9 20:45 | 显示全部楼层
penryn 发表于 2025-1-9 20:35
那要这么说跑推理完全不需要大显存高端gpu啊,这个组合的性价比不是吊打一切专业方案么? ...

那不然呢, 垃圾佬不是白当的(而且实际机房虽然不至于这么垃圾佬, 但8/10/12卡4090(D)集群替代L40S集群做推理是连正规服务器厂家比如浪潮之类都摆在台面上推荐的
发表于 2025-1-9 20:49 | 显示全部楼层
zhuifeng88 发表于 2025-1-9 20:45
那不然呢, 垃圾佬不是白当的(而且实际机房虽然不至于这么垃圾佬, 但8/10/12卡4090(D)集群替代L40S集群做 ...

那nv推出的新盒子也好,nv这么多专业卡也罢,对于庞大的推理需求来说不就是浪费金钱?是不是o3这样的模型也可以这么跑?
发表于 2025-1-9 20:51 | 显示全部楼层
zhuifeng88 发表于 2025-1-9 20:45
那不然呢, 垃圾佬不是白当的(而且实际机房虽然不至于这么垃圾佬, 但8/10/12卡4090(D)集群替代L40S集群做 ...

类似地,比如说公司本来买了一堆m4 mini/mbp做一般用途,等它们更新了是不是就能拿旧机子直接跑推理用,多大的模型都不在话下?
发表于 2025-1-9 20:59 | 显示全部楼层
本帖最后由 zhuifeng88 于 2025-1-9 21:06 编辑
penryn 发表于 2025-1-9 20:49
那nv推出的新盒子也好,nv这么多专业卡也罢,对于庞大的推理需求来说不就是浪费金钱?是不是o3这样的模型 ...


正规推理服务都是集群跑的, 不存在单机跑推理服务的(甚至不说单卡)

这不是显存能不能放下模型参数的问题, 而是推理场景GPU算力需要超高并发才能发挥(发挥不出来就是纯粹的浪费钱), 而超高并发下显存占用的大头压根不是模型参数, 而是kv cache, (常规部署下单个推理实例kv cache大小会在模型参数10倍以上)

先谈专业卡的问题
一个是合规, 不是所有厂都选择省一半价钱弄个表面上比较灵车的东西
一个是类似的场景下专业卡需要的卡数量少, 省下的机房机柜占用成本是很大一笔钱得算算

新盒子的话, 主要定位完全不像是推理服务, 而是给GH/GB200之类的平台开发软件的验证平台, 调试代码不用烧着一小时光算折旧就几十刀的机器 (当然也不拦着不差钱的自己跑模型玩, 性价比低也就低了)
发表于 2025-1-9 21:06 | 显示全部楼层
zhuifeng88 发表于 2025-1-9 20:59
正规推理服务都是集群跑的, 不存在单机跑推理服务的(甚至不说单卡)

这不是显存能不能放下模型参数的问题 ...

所以专业卡大显存的意义主要是节约物理空间占用?那如果物理空间成本比较低的话,是不是就不需要买显存那么大的专业卡,买很多小显存的可以大大降低成本?
发表于 2025-1-9 21:08 | 显示全部楼层
本帖最后由 zhuifeng88 于 2025-1-9 21:11 编辑
penryn 发表于 2025-1-9 21:06
所以专业卡大显存的意义主要是节约物理空间占用?那如果物理空间成本比较低的话,是不是就不需要买显存那 ...


是啊, 不然正规服务器厂怎么会把4090D(甚至不是4090, 而且都不改被动散热了, 直接出新机架方案支持3风扇卡)都拿到台面上给企业推荐(特别是国内合规压力更低的情况下)
发表于 2025-1-9 21:10 | 显示全部楼层
zhuifeng88 发表于 2025-1-9 21:08
是啊, 不然正规服务器厂怎么会把4090D都拿到台面上给企业推荐(特别是国内合规压力更低的情况下) ...

那对于个人和小企业用户来说,比如说苹果用户,想获得同样的推理性能是不是两台64g的mac mini要比单台128g的mbp省钱很多?也就是说并不需要专门为了大内存而追求高规格的机器,不如买几台小内存的低规格机器?
发表于 2025-1-9 21:14 | 显示全部楼层
本帖最后由 zhuifeng88 于 2025-1-9 21:17 编辑
penryn 发表于 2025-1-9 21:10
那对于个人和小企业用户来说,比如说苹果用户,想获得同样的推理性能是不是两台64g的mac mini要比单台128 ...


是的

虽然mac的情况比较特殊, 本身算力太低, 不高并发就会撞上算力瓶颈, 这种情况下多机互联开销影响会比高并发场景大得多

但仍然不足以改变结论(而且有人展示过4台mac mini 雷电5全连接互联(4台全连接刚好用完3个口)推理)
发表于 2025-1-9 21:31 | 显示全部楼层
zhuifeng88 发表于 2025-1-9 21:14
是的

虽然mac的情况比较特殊, 本身算力太低, 不高并发就会撞上算力瓶颈, 这种情况下多机互联开销影响会 ...

明白了谢谢。那除了占用空间大一些以外,这种分布式方案相比大内存方案来说还有其他tradeoff吗?比如说到了某个规模的模型就跑不动了,或者节点数量增加到一定程度就没法再提速了什么的?对比8x64g的专业卡和2x256g的专业卡,有没有后者有性能方面明显优势的场景呢?
发表于 2025-1-9 21:47 | 显示全部楼层
本帖最后由 zhuifeng88 于 2025-1-9 21:49 编辑
penryn 发表于 2025-1-9 21:31
明白了谢谢。那除了占用空间大一些以外,这种分布式方案相比大内存方案来说还有其他tradeoff吗?比如说到 ...


假设
1. 不考虑机柜占用成本
2. 讨论4090,L40S和H100 (其他情况没太多贴合实际推理服务场景的案例只能非常粗略的估计)
decode节点永远不会到达性价比交叉点(4090单位吞吐量价格永远更低)
prefill节点会和H100交叉(比如405B的dense模型, 十几台8卡H100的规模下会交叉, 往后H100性价比更高), 永远不会和L40S交叉
发表于 2025-1-9 21:51 | 显示全部楼层
zhuifeng88 发表于 2025-1-9 21:47
假设
1. 不考虑机柜占用成本
2. 讨论4090,L40S和H100 (其他情况没太多贴合实际推理服务场景的案例只能非 ...

明白了谢谢,对将来的设备选择是非常有用的参考
发表于 2025-1-9 23:22 | 显示全部楼层
我倒是认为IA两家应该让四通道内存下放到主流平台,以及带四个内存槽位的笔记本也能四通道。但目前看来似乎水果给的压力还不够大,如今CPU核心多了,内存却仍然只是按部就班的双通道,插四根容量是大了但还会进一步降低频率。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-1-30 07:47 , Processed in 0.010326 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表