找回密码
 加入我们
搜索
      
楼主: 蛋上一道疤

[CPU] M4这下真是把牢英的脸都发打肿了,同样是N3B工艺牢英做出来就是一坨

  [复制链接]
发表于 2024-11-2 11:00 | 显示全部楼层
以前以为水果的东西都是奢侈品,现在看感觉是性价比之王了。macmini丐版 3500+  现在X86随便一颗U就3000+ 。现在的电脑配件价格 太贵了。
发表于 2024-11-2 22:14 | 显示全部楼层
Bysmiel 发表于 2024-11-1 12:06
额,警惕苹果的营销策略。苹果cpu虽然很强,续航和ipc都领先。但是并不一定适合干重活。不谈别的领域,哪怕 ...

干重活会汗流浃背的,必须吃的好、散热好

但某些苹果用户总是无视这些物理定律
发表于 2024-11-2 22:15 | 显示全部楼层
yangzi123aaa20 发表于 2024-11-1 02:17
大部分网友对生产力的理解约等于星巴克拿着本子敲敲文档剪一下短视频

其实用手机修图、修视频更简单

90%的人都用不来那些专业软件比如PS
发表于 2024-11-2 22:20 | 显示全部楼层
黑钢 发表于 2024-10-31 16:34
你这句话吧,还有一点道理,所以你所谓的重活只是针对你这样的特定人群,对我来讲,做个200多页的标书, ...


问题mac那个价格不适合普通老百姓用

黄金肯定比内存条保值
发表于 2024-11-2 22:25 | 显示全部楼层
log4j 发表于 2024-10-31 15:44
我用mac敲代码,是因为mac除了撸代码啥也干不了

然后提交到win或者linux的服务器上编译是吧?

发表于 2024-11-2 22:27 | 显示全部楼层
我见过用mac笔记本电脑跑AMD的FPGA开发工具vivado的,惊为天人,问了一下mac笔记本电脑是远程访问服务器

——我见识短,这是我见过的除星巴克之外最生产力的mac了
发表于 2024-11-2 22:29 | 显示全部楼层
freelaner 发表于 2024-11-1 02:10
很有趣的话题,在我看来除了游戏策划还有Excel需求,传统office三件套毫无存在必要,包括那大几千页文档更 ...


要知道,Excel连快速傅立叶变换(FFT)都能做
发表于 2024-11-2 22:37 | 显示全部楼层
hnczqing 发表于 2024-11-2 22:14
干重活会汗流浃背的,必须吃的好、散热好

但某些苹果用户总是无视这些物理定律 ...

当年core2用不到一半功耗吊打pentium xe的时候,从来没见媒体或社区提过什么“物理定律”,但不知道从什么时候开始这个莫名其妙的词儿就总是被各种小白当个宝一样用了
发表于 2024-11-2 22:38 | 显示全部楼层
zhuifeng88 发表于 2024-10-31 16:27
几十页重活你要不要想想你在说什么, 拿脚一想常看的usermanual大几百页起

+1


屏幕截图 2024-11-02 223807.png


几十页的重活。。。。。。。
发表于 2024-11-2 22:49 | 显示全部楼层
平安是福 发表于 2024-11-1 01:39
不分参数量这不是耍流氓吗本地4090跑70b的大模型还要100token/S得要几张?

72B AWQ 4bit  vllm  2张大约 35.6 tokens/s

100 tokens/s,大约需要6张

嗯   有些时候不实用,因为长上下文显存不足
发表于 2024-11-2 22:55 | 显示全部楼层
本帖最后由 godspeed66 于 2024-11-2 23:01 编辑
幼稚園班長 发表于 2024-11-1 14:42
对,你是对的。严格来说,工人阶级、官员都属于老百姓。但是你们这类不属于普通老百姓。
我也很有自觉, ...


编辑掉
发表于 2024-11-2 22:59 | 显示全部楼层
本帖最后由 godspeed66 于 2024-11-2 23:07 编辑
ohmygod12121212 发表于 2024-11-1 10:19
70b M4也跑不动啊
10b不到的小模型一堆给你用CPU跑的便秘服务
重度用户当然自己搞了 ...


其实我也刚刚看到,我还很动心的,10 tokens-per-sec,已经很快了,基本能赶上 RTX 6000 ADA 跑72B (AWQ 4bit)模型推理 了 (RTX 6000 ADA 单卡 10~15 tokens/s,双卡 30 tokens/s)


Qwen2.5-72B-Instruct-MLX-8bit
Prompt: 25 tokens, 20.174 tokens-per-sec
Generation: 204 tokens, 10.771 tokens-per-sec
Peak memory: 17.398 GB


https://www.modelscope.cn/models ... B-Instruct-MLX-8bit


可能有误的推理:

感觉这个推理速度基本符合   RTX 6000 ADA 内存( 960 GB/s )与 M3 MAX或  M2 MAX 内存(400 GB/s )差异,但不清楚该测试是不是用的m2 ultra( 800 GB/s)
发表于 2024-11-3 00:57 | 显示全部楼层
从M1 Max Ultra开始已经超过X86台式机了 M4跑分挺高 可惜不是工程制图软件不支持 M.2硬盘扩展麻烦 买台水果流畅性会好许多
发表于 2024-11-3 01:21 | 显示全部楼层
ITNewTyper 发表于 2024-11-2 11:00
以前以为水果的东西都是奢侈品,现在看感觉是性价比之王了。macmini丐版 3500+  现在X86随便一颗U就3000+  ...

丐版只有256GB存储,这年头谁要是买个PC哪怕是nuc只有256GB硬盘也是会被耻笑的
发表于 2024-11-3 01:27 | 显示全部楼层
YsHaNg 发表于 2024-10-31 04:54
楼上都一堆指出了 你也不出正经重活

本来想说你对人太苛刻了,看到155楼才发现是我naive了
发表于 2024-11-3 10:52 | 显示全部楼层
penryn 发表于 2024-11-2 22:37
当年core2用不到一半功耗吊打pentium xe的时候,从来没见媒体或社区提过什么“物理定律”,但不知道从什 ...

你说的对,我只是个搞电子的小白,毕竟也只是偶尔根据芯片功耗和热阻算算温升,并没有真的设计过31级流水线的CPU和散热系统

苹果散热还是很牛逼的,当年用Intel芯片的时候mac笔记本电脑就吊打一众windows机器,更别说现在都改成ARM了
发表于 2024-11-3 11:10 | 显示全部楼层
本帖最后由 zhuifeng88 于 2024-11-3 11:25 编辑
godspeed66 发表于 2024-11-2 22:59
其实我也刚刚看到,我还很动心的,10 tokens-per-sec,已经很快了,基本能赶上 RTX 6000 ADA 跑72B (AWQ ...


你细看就会发现他运行的代码和跑的结果的时间是对不上号的
Qwen2.5-72B-Instruct-MLX-8bit参数量大约是75GiB, 哪怕不考虑中间结果存取的带宽消耗, 光参数load跑到10.7token/s所需的带宽(>800GiB/s)就超过m2 ultra实际payload可能达到的上限了(680GiB/s)

这指向几种可能, 比如
1. 给出的generation性能计算误差很大
2. 下面性能和上面代码并不对应, 比如用的是不同的模型

但不管怎么说, 这个给出的性能都是完全不靠谱的

顺便给一个数值上看起来比较合理的m2 ultra跑4bit(mlx)的参考, 大约37GiB参数量, 这个数值比m2 ultra在扔掉mlx的前提下能跑的低一点(~20%)
https://www.reddit.com/r/ollama/ ... am_and_ilama31_70b/
  1. Thanks for bringing up the topic—I gave it a try! Here’s the benchmark for Qwen2.5:72B with Ollama and MLX-ML:

  2. • Ollama (Qwen2.5:72B): 6.95 t/s

  3. • MLX (mlx-community/Qwen2.5-72B-Instruct-4bit): 8.14 t/s

  4. • Ollama (Gemma2:27B): 19.39 t/s

  5. The 70B model isn’t ideal for smooth use, but it’s not unusable—it feels just a bit slower than **-4o.
复制代码


再顺便一提, 6000ada prompt prefill bs1能达到~1000token/s, 而m2 ultra要低超过一个数量级, 这对于文档总结/RAG之类来说几乎是不可用的
与此同时, 48G显存的L20只要2w块出头, 推理用这个可合理多了
发表于 2024-11-3 15:58 | 显示全部楼层
本帖最后由 dreamwar 于 2024-11-3 15:59 编辑

矫情,百页以内的工作不是轻工作什么是轻工作,哪怕最基本的博士毕业论文,你有本事不到百页交给导师看看?!优秀的硕士论文也很难低于百页。你拿几十页的文档来炫耀“重工作”,我都不知道是该笑你还是可怜你。

我想买MacMini是因为我有万元主力机了,也有工作用的服务器,专门买个小主机当轻工作和图新鲜玩的家用端。你买Mac炫耀几十页文档的“重工作”图什么?图160吗?
发表于 2024-11-3 16:57 | 显示全部楼层
本帖最后由 ekiuc 于 2024-11-3 17:26 编辑
TShan 发表于 2024-10-31 18:20
COD的引擎你给我个Mac版本?
寒霜你给我来个Mac版本?
日厂自己写的引擎你给我来个Mac版本?


有一说一,cod 16之后的引擎在appleOS上应该是没啥问题的,ios版不就是跟桌面一个引擎大砍特效和光影么,我还真血轮眼盯了一会儿,在部分优化好的地图上跟桌面比起来,乍一看不出太大区别

不上mac我觉得跟米哈游对的游戏缺席mac一个问题,商业因素为主。不止cod,以ue和unity得适配情况很多出了同引擎mobile版的其实应该都能出mac版本,但是实际上没有

寒霜铁废物就不谈了,日厂的引擎我感觉其实反而会容易一下,苹果这边找日厂找的还挺勤,每次开发布会都要提一嘴我们又找来了谁(最近还找来了2077,不过这一家家找何年是个头),反而感觉欧美厂商势力范围都划分得差不多了,不是自己是大爹就是已经有了大爹,基本上没给苹果剩什么空间


发表于 2024-11-3 17:05 | 显示全部楼层
binne 发表于 2024-10-31 20:58
没找的M4 max的die size, 找到M3 max的die size 是 531 mm2。
然后,Intel Core Ultra 9 285K 的die size  ...


面积不是这么算的,M3M是带了一堆加速单元,一个巨型gpu,还有四倍的内存位寬

光看CPU,N3B的LNL一个大核是N3E的M4一个大核的接近两倍,性能么,差不少
小核差不多是m4小核的三倍,性能强个50%不到

intel的ppa现在就是最拉的,跟任何一个友商比成本/面积和功耗属于纯纯的丢人现眼
发表于 2024-11-3 18:04 来自手机 | 显示全部楼层
ekiuc 发表于 2024-11-3 17:05
面积不是这么算的,M3M是带了一堆加速单元,一个巨型gpu,还有四倍的内存位寬

光看CPU,N3B的LNL一个大 ...

站远一点看,性能功耗面积 差不是这一代开始的,反而在改善,我保留 “不丢脸”这个观点。
发表于 2024-11-3 18:55 | 显示全部楼层
本帖最后由 ekiuc 于 2024-11-3 19:29 编辑
binne 发表于 2024-11-3 18:04
站远一点看,性能功耗面积 差不是这一代开始的,反而在改善,我保留 “不丢脸”这个观点。
...


改善的依据是啥?工艺落后一代半的时候面积就大快一倍了,但是那时候好歹猛拉功耗,峰值性能比友商高,抱住一个单核王者的名头,虽然很快就缩肛了

上一代mtl装逼说革命性升级,名字都改了,结果ppa进一步爆炸,给满怀期待的oem端出来一坨奥利给

这一代用了同一代工艺,还是大快一倍,这次连峰值性能的优势都丢了,而且刚首发就传出稳定性的问题

差确实不是从这一代开始的,skylake之后就崩坏了,但是我妹看出改善在哪儿啊,这还是单看CPU,看整个SoC更是灾难,LNL是140的N3+46的N6+200的底板的高级封装,顶上那点东西比X Eilte都大,然后规模拓展性跟M4坐一桌

还“cpu性能 2.5倍,面积也是两倍多,不丢脸。”不是大哥,你对比面积和性能的方法压根就跟正确没有关系啊,对象不是一个对象,面积也不是一个面积。最简单的一个例子,不算苹果夹带的杂七八啦的玩意,明面上人家还带了一个位宽四倍的内存控制器和8倍多的GPU啊,所以我可以说intel用一半的面积造出一个不到人家1/8性能的GPU,纯纯的浪费沙子建议自裁是么?


PS:还有,M4M比的是258……
发表于 2024-11-3 20:02 | 显示全部楼层
黑钢 发表于 2024-10-31 15:00
确实理解不了你们咋玩的MAC,首先OFFICE 365一点问题都没有,其次有了pages正经干活的时候谁还稀罕用word? ...

零基础,就普通家用没啥特殊玩法的话,的确MAC更好,简直是吊打的存在,尤其手机也是iphone的,但凡跟工作搭边了,而且工作那些跟IOS还没啥关联的情况下,真的是欲哭无泪,而且还尤其是国内。
发表于 2024-11-3 20:17 | 显示全部楼层
ekiuc 发表于 2024-11-3 18:55
改善的依据是啥?工艺落后一代半的时候面积就大快一倍了,但是那时候好歹猛拉功耗,峰值性能比友商高,抱 ...

"我可以说intel用一半的面积造出一个不到人家1/8性能的GPU,纯纯的浪费沙子建议自裁是么?"  不可以,因为,一男中学生跑到隔壁女子中学的体育场上说,我比你们学校所有的学生跑的快。 有能耐找 N厂去,I厂的GPU是买CPU送的。

x86和arm单比核心面积是不公平的,x86有太多的”历史包袱“。

intel多年有了的Tick–tock模式,tick时刻接上新工艺,tock时刻构架优化,保留观点,Intel 不丢脸。接下来,对于intel的看点是,一堆的新工艺,别出什么大问题,就是成功。

小米发布会拿苹果来比较,那是”尊重“, 同样M处理器拿intel处理器来比较,同样是”尊重“


发表于 2024-11-3 20:28 | 显示全部楼层
本帖最后由 ekiuc 于 2024-11-3 21:01 编辑
binne 发表于 2024-11-3 20:17
"我可以说intel用一半的面积造出一个不到人家1/8性能的GPU,纯纯的浪费沙子建议自裁是么?"  不可以,因 ...


一男中学生跑到隔壁女子中学的体育场上说,我比你们学校所有的学生跑的快。
不会举例子就别举,照这个说法,apple,amd,nvidia和高通联发科做的SoC的,多方面协同发展,是健全人,intel只能比CPU,别的都不能比,瘸腿走路,是残疾人,健全人不能跟残疾人比较那倒是确实,是我错了,不该欺负残疾人。不过既然是残疾人,就不要上桌了,现在大家无论是Mobile还是DC都是看GPU,NPU,你一个只会做CPU的根本没资格来比啊

x86和arm单比核心面积是不公平的,x86有太多的”历史包袱“。
乐,半吊子不要整天复读营销号那点东西了,之前比核心面积可是你自己要比的。x86 税确实存在,并且有专门研究,但是对于现代架构影响并不算大。说不能比的至少看看AMD吧,ppa怎么控制的就那么好呢,怎么也还是比intel小了一小半呢?感情AMD做的不是x86是吧?真的,菜就多练,别整天搞30e那一套

intel多年有了的Tick–tock模式,tick时刻接上新工艺,tock时刻构架优化
建议看一下最新的新闻,早就不是tick-tock的节奏了,LNL全身上下全是新的,结果就这?

保留观点,Intel 不丢脸
是是是,我虽然面积大,性能差,功耗高,爱做ppt吹牛逼,裁工程师,嘴还硬,但我还是强无敌

对于intel的看点是,一堆的新工艺,别出什么大问题,就是成功。
且不说ifs工艺,客户,资金全面落后的情况下靠什么超回来,它真的只是工艺的问题吗?LNL可是N3+N6的高级封装+MoP内存+CPU/GPU架构更新哦

小米发布会拿苹果来比较,那是”尊重“, 同样M处理器拿intel处理器来比较,同样是尊重
输成这样还能扯上尊重,戏真多,都不知道从哪儿解读的。雷总之前被人发布会比的都快翻脸骂人了,这是哪门子尊重?苹果从乔布斯时期就有专门嘲讽pc,做广告对pc贴脸开大,这也是尊重是吧?还是你觉得苹果的现在的形象很真诚?大概intel做ppt的时候也是这个心态吧,普通又自信

真的,我不知道你逻辑是怎么凑出来的,也没功夫再一条条给你找毛病,别互相浪费时间了,就此打住吧,对intel这么有信心建议多买点股票,别让基尔辛格整天为了找钱维持股价搞得狼狈不堪的
发表于 2024-11-3 20:30 | 显示全部楼层
zhuifeng88 发表于 2024-11-3 11:10
你细看就会发现他运行的代码和跑的结果的时间是对不上号的
Qwen2.5-72B-Instruct-MLX-8bit参数量大约是75 ...

不太明白,6000ada的带宽比m2u高了不到一半,为啥性能会差一个数量级?
发表于 2024-11-3 21:06 | 显示全部楼层
ekiuc 发表于 2024-11-3 20:28
“一男中学生跑到隔壁女子中学的体育场上说,我比你们学校所有的学生跑的快。”
不会举例子就别举,找这 ...

1,在GPU领域,苹果的理想和intel不一样,苹果能上光追,intel有什么,苹果抓intel来比GPU性能不合适。

2,没写清楚,不是说硅片核心面积。x86的单核核心大是不争的事实。

3,Tick-tock模式,早就不行了,14nm++++ 加了那么多年,这不是傍上tsmc,也可以一代构架吃两代工艺,等着看

4,公司运营和cpu面积功耗 硬要扯上,确实有关系。

5,任何广告营销,作比较的时候,都是拿“好东西”来比的,业内常规操作。
跑分差一半,又不是不能卖,工艺缺陷才是问题。

6,  “我不知道你逻辑是怎么凑出来的,也没功夫再一条条给你找毛病,就此打住吧”
你已经一条条挑了。 做过之后,然后说不再做了,呵呵。

发表于 2024-11-3 21:18 | 显示全部楼层
本帖最后由 ekiuc 于 2024-11-3 21:38 编辑
binne 发表于 2024-11-3 21:06
1,在GPU领域,苹果的理想和intel不一样,苹果能上光追,intel有什么,苹果抓intel来比GPU性能不合适。

...


不谈DC那边翔一样的AI加速器,intel的桌面端GPU也是有光追加速和tensor加速的,论feature intel比苹果和amd都全,苹果到M3才搞出硬件光追,tensor更是没有影子的事。OneAPI可是奔着游戏,AI,渲染,科学计算等等大一统去得,可比苹果这种在自家一亩三分地里玩玩渲染,风口来了凑合一下计算的野心大多了。虽然纸面算力不作数,但是M3 Max算力才多少,MTL算力多少,LNL是多少?ARL-S的iGPU小没错,LNL的iGPU可一点也不小。Raja之前都被提到首席架构师了,intel对于GPU得重视可见一斑,合着这都不能跟苹果比,就是给阿三刷履历的事吧?

然后最后一句给我看乐了,我说的是“也没功夫再一条条给你找毛病”,“再”这个字表示第二次,放在这里表示:这次我一条条反驳一次,然后咱们就就此打住吧,出来上个网跟辩论似的。咋了,您还希望我再给您挑一轮啊?您能理解成我是做过之后再说不做的小人,我还能说什么呢?
发表于 2024-11-3 21:57 | 显示全部楼层
ekiuc 发表于 2024-11-3 21:18
不谈DC那边翔一样的AI加速器,intel的桌面端GPU也是有光追加速和tensor加速的,论feature intel比苹果和a ...



睡觉,晚安
发表于 2024-11-3 22:36 | 显示全部楼层
ekiuc 发表于 2024-11-3 16:57
有一说一,cod 16之后的引擎在appleOS上应该是没啥问题的,ios版不就是跟桌面一个引擎大砍特效和光影么, ...

不是你觉得没啥问题就没啥问题。
开发端和打包出来的游戏完全是两码事,ps4版还不是在pc上开发完成的。
COD各个组之间引擎都无法完全通用。
COD引擎那屎山代码除非几个工作室都从头开发,基本就是不可能的。


就是真的有那决心推翻全部重做,就MAC那黄金内存,哪个工作室负担的起。
内存128G是起步,最好是256才能保证完全不崩溃,成本就是无底洞。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2024-11-22 22:56 , Processed in 0.014566 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表