mac studio m3utral 跑 671b 模型速度出来了，很不错

i6wz1l 发表于 2025-3-11 21:30

671b4bt量化模型可以做到将近10token，速度不错啊

截图来自b站小白评测：
视频
https://www.bilibili.com/video/BV1EMQVYiE7w/?spm_id_from=333.337.search-card.all.click&vd_source=1da3f1e561afc6d28affd340b4a64e9e

sthuasheng 发表于 2025-3-11 21:33

每秒10tokens很慢啊，也就是不在乎时间的情况下勉强能用而已，要比较好的体验至少要30tokens左右吧

uprit 发表于 2025-3-11 21:35

sthuasheng 发表于 2025-3-11 21:33
每秒10tokens很慢啊，也就是不在乎时间的情况下勉强能用而已，要比较好的体验至少要30tokens左右吧 ...

个人用有20就很可以了，眼睛基本就开始跟不上输出速度了。

sthuasheng 发表于 2025-3-11 21:38

uprit 发表于 2025-3-11 21:35
个人用有20就很可以了，眼睛基本就开始跟不上输出速度了。

讲真，用7,8w的mac跑一个速度很慢的模型，我宁可买个1,2w的mac，剩下的钱买api能用好多年了

i6wz1l 发表于 2025-3-11 21:38

还有个问题，像是b站这种提前可以测试的up主，他们的设备是苹果送的还是说可以提前购买？听小白的意思是提前购买的，并不是苹果送的

PaperMellon 发表于 2025-3-11 21:42

他是用MLX还是ollama啊，我去看看

Miner 发表于 2025-3-11 21:47

uprit 发表于 2025-3-11 21:35
个人用有20就很可以了，眼睛基本就开始跟不上输出速度了。

不是这样的，之前的模型，10t/s 20t/s 差不多了……

现在推理模型输出量太大，无效 token 多，大一点的问题 20t/s 还是很不够啊，最好能有 50t/s 以上的速度

21mm 发表于 2025-3-11 21:52

双路 8581c是不是更省一点？

williamqh 发表于 2025-3-11 22:21

sthuasheng 发表于 2025-3-11 21:38
讲真，用7,8w的mac跑一个速度很慢的模型，我宁可买个1,2w的mac，剩下的钱买api能用好多年了 ...

这个确实。普通用户API足够了。而且Google Gemini 2.0那个速度吊打任何本地机, 还免费。

gavinzyf 发表于 2025-3-11 22:28

张黑黑用512g版本跑mlx的ds r1 4bit，能到19 tokens

https://www.bilibili.com/video/BV1nkRnYTEWx/?spm_id_from=333.1387.list.card_archive.click

gmlee1999 发表于 2025-3-11 22:33

sthuasheng 发表于 2025-3-11 21:38
讲真，用7,8w的mac跑一个速度很慢的模型，我宁可买个1,2w的mac，剩下的钱买api能用好多年了 ...

个人用买API省很多，又不是24小时跑，花不了几个钱。

jaycty 发表于 2025-3-11 23:28

很不错自己搭建性价比很高

MDC 发表于 2025-3-11 23:31

sthuasheng 发表于 2025-3-11 21:38
讲真，用7,8w的mac跑一个速度很慢的模型，我宁可买个1,2w的mac，剩下的钱买api能用好多年了 ...

好多年？大胆点，满月用到头七[偷笑]

LNT 发表于 2025-3-12 00:01

看到好几个up的测试结果都是~20tps左右，不知道他怎么测的只有~10tps不到

夏络不名 发表于 2025-3-12 00:29

MDC 发表于 2025-3-11 23:31
好多年？大胆点，满月用到头七

保守了，爷爷满月用到孙儿头七

Aresiusking 发表于 2025-3-12 00:48

默认只能调用75%的内存作为VRAM，小白没解锁所以VRAM根本装不下完整的671b模型（404 G）文件速度就慢了

LocaVoiD 发表于 2025-3-12 00:49

可以，能揣包带走的8卡H100

Dream_Seeker 发表于 2025-3-12 00:56

我选择用双2080TI 22G跑qwq-32B Q4，64K上下文，或者4路2080ti 22G拉满qwq-32B Q8 128K上下文，这配置便宜太多，qwq也能有9成满血R1的功力

Dream_Seeker 发表于 2025-3-12 01:05

发现很多人只管模型跑起来，不考虑上下文的显存占用。普通的模型还过得去，但是现在火的R1、QWQ这些思维链模型都会有大量的思考过程，轻轻松松用掉大几千token，不得不考虑上下文，否则你会发现模型思考到后面都忘记了一开始的目的，或者陷入了思考循环。在B站都看到不少UP主测试qwq的时候有这个问题，还下结论说qwq很菜[困惑]

LNT 发表于 2025-3-12 01:13

Dream_Seeker 发表于 2025-3-12 01:05
发现很多人只管模型跑起来，不考虑上下文的显存占用。普通的模型还过得去，但是现在火的R1、QWQ这些思维链 ...

确实，读一个两三页的pdf大概就要消耗6K的tokens。 8K的上下文根本顶不住

wuxi001 发表于 2025-3-12 07:44

如果证明路径可行，那么就非常省钱了，比如给企事业单位推广和部署低成本，容易买到，价格低的私有AI。商业机密绝对是企事业最高优先级。大有可为啊，算力卡对于普通预算紧张的企业几乎遥不可及且越来越难搞到。这个实验非常有意义。

kanshuderen 发表于 2025-3-12 07:55

所以 mac studio 也能像 mini 那样用雷电 5 做集群吗？这样岂不是更牛逼？对于某些特定用户来说，可能是能耗比最佳的选择了吧。。。张黑黑的视频里说了，只要 60w 的功耗就能跑了。

港城钢铁侠 发表于 2025-3-12 08:44

我看另一个Up的用mlx已经跑到19T/s了

明镜止水 发表于 2025-3-12 08:45

MDC 发表于 2025-3-11 23:31
好多年？大胆点，满月用到头七

确实是这样

chip_discovery 发表于 2025-3-12 08:56

sthuasheng 发表于 2025-3-11 21:38
讲真，用7,8w的mac跑一个速度很慢的模型，我宁可买个1,2w的mac，剩下的钱买api能用好多年了 ...

这就像NAS用户和网盘用户之争一样，网盘用户说你买硬盘、买硬件、装系统、装软件花的时间和金钱都够我百度网盘续费多少多少年了，
NAS用户说，你小电影变8秒

chip_discovery 发表于 2025-3-12 08:59

williamqh 发表于 2025-3-11 22:21
这个确实。普通用户API足够了。而且Google Gemini 2.0那个速度吊打任何本地机, 还免费。 ...

gemini 那个合规怪就算了吧，回答的天衣无缝，滴水不漏，仔细一看，毫无软用

我輩樹である 发表于 2025-3-12 09:11

kanshuderen 发表于 2025-3-12 07:55
所以 mac studio 也能像 mini 那样用雷电 5 做集群吗？这样岂不是更牛逼？对于某些特定用户来说，可能是能 ...

功耗没那么低，视频中用的asitop只能显示gpu的功耗，实际上跑这个周边功耗非常高，具体是哪里看不出来，猜测是统一内存的原因。

比如我的m4max，跑的时候gpu功耗也是60w不到，但是整机功耗直接拉满。

af_x_if 发表于 2025-3-12 09:21

不要说硬件折旧了，只考虑电费大概都是买API划算。

bingshitian 发表于 2025-3-12 09:32

Aresiusking 发表于 2025-3-12 00:48
默认只能调用75%的内存作为VRAM，小白没解锁所以VRAM根本装不下完整的671b模型（404 G）文件速度就慢了 ...

小白家，我看主要评测手机的，估计ai模型方面不擅长。

fatbamboo 发表于 2025-3-12 09:35

gmlee1999 发表于 2025-3-11 22:33
个人用买API省很多，又不是24小时跑，花不了几个钱。

个人买DP的API，可以推荐个桌面和移动端的前端客户端软件么？ cherry studio?

页: [1] 2

Chiphell - 分享与交流用户体验's Archiver

mac studio m3utral 跑 671b 模型速度出来了，很不错