zx0550 发表于 2025-3-12 09:38

10tokens勉勉强强可以用了
量化4bit的智商怎么样

hydra0 发表于 2025-3-12 09:44

本帖最后由 hydra0 于 2025-3-12 09:45 编辑

第一:满血的是671B FP8,模型大于700G了,这个还满足不了,实际上还是跑了个量化的低精度版本
第二:这速度也不算很快,而且也基本没能力并发,仅仅只为了单机用...这成本也太离谱了.....

fut888 发表于 2025-3-12 09:57

我輩樹である 发表于 2025-3-12 09:11
功耗没那么低,视频中用的asitop只能显示gpu的功耗,实际上跑这个周边功耗非常高,具体是哪里看不出来, ...

油管插座实测160w左右

uprit 发表于 2025-3-12 09:59

MDC 发表于 2025-3-11 23:31
好多年?大胆点,满月用到头七

简单算一下:
按DS最贵的输出,16块100w token,按每天用25w,个人用这个算比较高的强度了,¥4/天。
算你买2w的Mac,还剩¥5.5w,预计可连续用13750天,合计约38年。
所以从满月用只能用到中年失业,从大学毕业用能用到退休。

VariedValiance 发表于 2025-3-12 10:00

wuxi001 发表于 2025-3-12 07:44
如果证明路径可行,那么就非常省钱了,比如给企事业单位推广和部署低成本,容易买到,价格低的私有AI。 商 ...

哈哈哈,可惜事业单位不会买苹果,现在到处搞xc,哪个领导敢顶风作案?

lz2906190 发表于 2025-3-12 10:01

有免费得全精度得用,为啥要本地部署找罪受。

VariedValiance 发表于 2025-3-12 10:02

chip_discovery 发表于 2025-3-12 08:56
这就像NAS用户和网盘用户之争一样,网盘用户说你买硬盘、买硬件、装系统、装软件花的时间和金钱都够我百 ...

漂亮话说的一套一套的,但是我话就放这儿了,你让人花八万块钱买这玩意儿,真掏钱的人,就算在本坛,有没有千分之一都要打个问号[音乐]

uprit 发表于 2025-3-12 10:03

wuxi001 发表于 2025-3-12 07:44
如果证明路径可行,那么就非常省钱了,比如给企事业单位推广和部署低成本,容易买到,价格低的私有AI。 商 ...

单位用得考虑并发吞吐量,这20t只能给个人玩玩。

uprit 发表于 2025-3-12 10:05

VariedValiance 发表于 2025-3-12 10:02
漂亮话说的一套一套的,但是我话就放这儿了,你让人花八万块钱买这玩意儿,真掏钱的人,就算在本坛,有没 ...

你算活跃用户还是注册用户。前者的话千分之一肯定有的,后者的话可能得再加俩数量级[偷笑]

uprit 发表于 2025-3-12 10:07

chip_discovery 发表于 2025-3-12 08:56
这就像NAS用户和网盘用户之争一样,网盘用户说你买硬盘、买硬件、装系统、装软件花的时间和金钱都够我百 ...

localllama用户说:你的输出可能包含有害信息,我们换个话题[偷笑]

我輩樹である 发表于 2025-3-12 10:12

跑localllm就是新时代的3dmark。[睡觉]

amagene 发表于 2025-3-12 10:26

uprit 发表于 2025-3-12 09:59
简单算一下:
按DS最贵的输出,16块100w token,按每天用25w,个人用这个算比较高的强度了,¥4/天。
算 ...

按每天用25w,网络估计会卡死...
另外,如果重度用户,估计每天1百万t以上,这种需要本地才能满足效率和安全

amagene 发表于 2025-3-12 10:27

小白测得不准,调试有问题,实际应该会更快些

wuxi001 发表于 2025-3-12 10:36

VariedValiance 发表于 2025-3-12 10:00
哈哈哈,可惜事业单位不会买苹果,现在到处搞xc,哪个领导敢顶风作案?

那就民营企业吧

hydra0 发表于 2025-3-12 10:40

wuxi001 发表于 2025-3-12 10:36
那就民营企业吧

可问题就在这速度个人能接受,你放企业就要并发

LocaVoiD 发表于 2025-3-12 10:57

hydra0 发表于 2025-3-12 10:40
可问题就在这速度个人能接受,你放企业就要并发

企业并发也不是一台机器就能搞定的事
同并发数成本十几倍保底了

hydra0 发表于 2025-3-12 11:09

LocaVoiD 发表于 2025-3-12 10:57
企业并发也不是一台机器就能搞定的事
同并发数成本十几倍保底了

我本意就是这方案的价值非常非常有限
个人用性价比极低
企业就没法用,不管是从能不能采购到性能够不够都是问题

kanshuderen 发表于 2025-3-12 13:35

我輩樹である 发表于 2025-3-12 09:11
功耗没那么低,视频中用的asitop只能显示gpu的功耗,实际上跑这个周边功耗非常高,具体是哪里看不出来, ...

嗯。不过再怎么样也比那些显卡功耗低。。。。如果能做集群,其实效能上可能还是一个不错的选择。

zlcrxp 发表于 2025-3-12 13:43

我买个**的会员o3随便用,回复的速度巨快,个人搞大模型我觉得只是图个好玩,只是玩具,你要真说生产力10token也是完全不够的,总不能每天我都和布置作业一样,第二天回来检查吧

wqxlcdymqc 发表于 2025-3-12 13:51

小白这个测试,应该爆内存了吧,正常情况下,GPU只能调用3分之2的内存做显存,int4需要400g内存

声色茶马 发表于 2025-3-12 14:26

sthuasheng 发表于 2025-3-11 21:33
每秒10tokens很慢啊,也就是不在乎时间的情况下勉强能用而已,要比较好的体验至少要30tokens左右吧 ...

很不错了。PC要到这个速度,得双路EPYC+1T内存吧,小十万起步?

tasagapro 发表于 2025-3-12 14:31

这个就是玩具,等看看新Mac Pro能不能上多路吧

声色茶马 发表于 2025-3-12 14:31

我輩樹である 发表于 2025-3-12 10:12
跑localllm就是新时代的3dmark。

这要求太高了。十年后的个人desktop laptop能轻松拿下现在的671B FP8就不错。但感觉水果的路是走对了,关键是得CPU GPU各种PU统一寻址,再加上巨大的内存容量和内存带宽。
页: 1 [2]
查看完整版本: mac studio m3utral 跑 671b 模型速度出来了,很不错