mac studio m3utral 跑 671b 模型速度出来了，很不错

zx0550 · 发表于 2025-3-12 09:38

10tokens勉勉强强可以用了
量化4bit的智商怎么样

hydra0 · 发表于 2025-3-12 09:44

本帖最后由 hydra0 于 2025-3-12 09:45 编辑

第一:满血的是671B FP8,模型大于700G了,这个还满足不了,实际上还是跑了个量化的低精度版本
第二:这速度也不算很快,而且也基本没能力并发,仅仅只为了单机用...这成本也太离谱了.....

fut888 · 发表于 2025-3-12 09:57

我輩樹である发表于 2025-3-12 09:11
功耗没那么低，视频中用的asitop只能显示gpu的功耗，实际上跑这个周边功耗非常高，具体是哪里看不出来， ...

油管插座实测160w左右

uprit · 发表于 2025-3-12 09:59

MDC 发表于 2025-3-11 23:31
好多年？大胆点，满月用到头七

简单算一下：
按DS最贵的输出，16块100w token，按每天用25w，个人用这个算比较高的强度了，¥4/天。
算你买2w的Mac，还剩¥5.5w，预计可连续用13750天，合计约38年。
所以从满月用只能用到中年失业，从大学毕业用能用到退休。

VariedValiance · 发表于 2025-3-12 10:00

wuxi001 发表于 2025-3-12 07:44
如果证明路径可行，那么就非常省钱了，比如给企事业单位推广和部署低成本，容易买到，价格低的私有AI。商 ...

哈哈哈，可惜事业单位不会买苹果，现在到处搞xc，哪个领导敢顶风作案？

lz2906190 · 发表于 2025-3-12 10:01

有免费得全精度得用，为啥要本地部署找罪受。

VariedValiance · 发表于 2025-3-12 10:02

chip_discovery 发表于 2025-3-12 08:56
这就像NAS用户和网盘用户之争一样，网盘用户说你买硬盘、买硬件、装系统、装软件花的时间和金钱都够我百 ...

漂亮话说的一套一套的，但是我话就放这儿了，你让人花八万块钱买这玩意儿，真掏钱的人，就算在本坛，有没有千分之一都要打个问号

uprit · 发表于 2025-3-12 10:03

wuxi001 发表于 2025-3-12 07:44
如果证明路径可行，那么就非常省钱了，比如给企事业单位推广和部署低成本，容易买到，价格低的私有AI。商 ...

单位用得考虑并发吞吐量，这20t只能给个人玩玩。

uprit · 发表于 2025-3-12 10:05

VariedValiance 发表于 2025-3-12 10:02
漂亮话说的一套一套的，但是我话就放这儿了，你让人花八万块钱买这玩意儿，真掏钱的人，就算在本坛，有没 ...

你算活跃用户还是注册用户。前者的话千分之一肯定有的，后者的话可能得再加俩数量级

uprit · 发表于 2025-3-12 10:07

chip_discovery 发表于 2025-3-12 08:56
这就像NAS用户和网盘用户之争一样，网盘用户说你买硬盘、买硬件、装系统、装软件花的时间和金钱都够我百 ...

localllama用户说：你的输出可能包含有害信息，我们换个话题

我輩樹である · 发表于 2025-3-12 10:12

跑localllm就是新时代的3dmark。

amagene · 发表于 2025-3-12 10:26

uprit 发表于 2025-3-12 09:59
简单算一下：
按DS最贵的输出，16块100w token，按每天用25w，个人用这个算比较高的强度了，¥4/天。
算 ...

按每天用25w，网络估计会卡死...
另外，如果重度用户，估计每天1百万t以上，这种需要本地才能满足效率和安全

amagene · 发表于 2025-3-12 10:27

小白测得不准，调试有问题，实际应该会更快些

wuxi001 · 发表于 2025-3-12 10:36

VariedValiance 发表于 2025-3-12 10:00
哈哈哈，可惜事业单位不会买苹果，现在到处搞xc，哪个领导敢顶风作案？

那就民营企业吧

hydra0 · 发表于 2025-3-12 10:40

wuxi001 发表于 2025-3-12 10:36
那就民营企业吧

可问题就在这速度个人能接受,你放企业就要并发

LocaVoiD · 发表于 2025-3-12 10:57

hydra0 发表于 2025-3-12 10:40
可问题就在这速度个人能接受,你放企业就要并发

企业并发也不是一台机器就能搞定的事
同并发数成本十几倍保底了

hydra0 · 发表于 2025-3-12 11:09

LocaVoiD 发表于 2025-3-12 10:57
企业并发也不是一台机器就能搞定的事
同并发数成本十几倍保底了

我本意就是这方案的价值非常非常有限
个人用性价比极低
企业就没法用,不管是从能不能采购到性能够不够都是问题

kanshuderen · 发表于 2025-3-12 13:35

我輩樹である发表于 2025-3-12 09:11
功耗没那么低，视频中用的asitop只能显示gpu的功耗，实际上跑这个周边功耗非常高，具体是哪里看不出来， ...

嗯。不过再怎么样也比那些显卡功耗低。。。。如果能做集群，其实效能上可能还是一个不错的选择。

zlcrxp · 发表于 2025-3-12 13:43

我买个**的会员o3随便用，回复的速度巨快，个人搞大模型我觉得只是图个好玩，只是玩具，你要真说生产力10token也是完全不够的，总不能每天我都和布置作业一样，第二天回来检查吧

wqxlcdymqc · 发表于 2025-3-12 13:51

小白这个测试，应该爆内存了吧，正常情况下，GPU只能调用3分之2的内存做显存，int4需要400g内存

声色茶马 · 发表于 2025-3-12 14:26

sthuasheng 发表于 2025-3-11 21:33
每秒10tokens很慢啊，也就是不在乎时间的情况下勉强能用而已，要比较好的体验至少要30tokens左右吧 ...

很不错了。PC要到这个速度，得双路EPYC+1T内存吧，小十万起步？

tasagapro · 发表于 2025-3-12 14:31

这个就是玩具，等看看新Mac Pro能不能上多路吧

声色茶马 · 发表于 2025-3-12 14:31

我輩樹である发表于 2025-3-12 10:12
跑localllm就是新时代的3dmark。

这要求太高了。十年后的个人desktop laptop能轻松拿下现在的671B FP8就不错。但感觉水果的路是走对了，关键是得CPU GPU各种PU统一寻址，再加上巨大的内存容量和内存带宽。

账号		自动登录	找回密码
密码			加入我们

[CPU] mac studio m3utral 跑 671b 模型速度出来了，很不错