mac studio m3utral 跑 671b 模型速度出来了,很不错
671b4bt量化模型可以做到将近10token,速度不错啊截图来自b站小白评测:
视频
https://www.bilibili.com/video/BV1EMQVYiE7w/?spm_id_from=333.337.search-card.all.click&vd_source=1da3f1e561afc6d28affd340b4a64e9e 每秒10tokens很慢啊,也就是不在乎时间的情况下勉强能用而已,要比较好的体验至少要30tokens左右吧 sthuasheng 发表于 2025-3-11 21:33
每秒10tokens很慢啊,也就是不在乎时间的情况下勉强能用而已,要比较好的体验至少要30tokens左右吧 ...
个人用有20就很可以了,眼睛基本就开始跟不上输出速度了。
uprit 发表于 2025-3-11 21:35
个人用有20就很可以了,眼睛基本就开始跟不上输出速度了。
讲真,用7,8w的mac跑一个速度很慢的模型,我宁可买个1,2w的mac,剩下的钱买api能用好多年了 还有个问题,像是b站这种提前可以测试的up主,他们的设备是苹果送的还是说可以提前购买?听小白的意思是提前购买的,并不是苹果送的 他是用MLX还是ollama啊,我去看看 uprit 发表于 2025-3-11 21:35
个人用有20就很可以了,眼睛基本就开始跟不上输出速度了。
不是这样的,之前的模型,10t/s 20t/s 差不多了……
现在推理模型输出量太大,无效 token 多,大一点的问题 20t/s 还是很不够啊,最好能有 50t/s 以上的速度 双路 8581c是不是更省一点? sthuasheng 发表于 2025-3-11 21:38
讲真,用7,8w的mac跑一个速度很慢的模型,我宁可买个1,2w的mac,剩下的钱买api能用好多年了 ...
这个确实。普通用户API足够了。而且Google Gemini 2.0那个速度吊打任何本地机, 还免费。 张黑黑用512g版本跑mlx的ds r1 4bit,能到19 tokens
https://www.bilibili.com/video/BV1nkRnYTEWx/?spm_id_from=333.1387.list.card_archive.click sthuasheng 发表于 2025-3-11 21:38
讲真,用7,8w的mac跑一个速度很慢的模型,我宁可买个1,2w的mac,剩下的钱买api能用好多年了 ...
个人用买API省很多,又不是24小时跑,花不了几个钱。 很不错 自己搭建性价比很高 sthuasheng 发表于 2025-3-11 21:38
讲真,用7,8w的mac跑一个速度很慢的模型,我宁可买个1,2w的mac,剩下的钱买api能用好多年了 ...
好多年?大胆点,满月用到头七[偷笑] 看到好几个up的测试结果都是~20tps左右,不知道他怎么测的只有~10tps不到 MDC 发表于 2025-3-11 23:31
好多年?大胆点,满月用到头七
保守了,爷爷满月用到孙儿头七
默认只能调用75%的内存作为VRAM,小白没解锁所以VRAM根本装不下完整的671b模型(404 G)文件速度就慢了 可以,能揣包带走的8卡H100 我选择用双2080TI 22G跑qwq-32B Q4,64K上下文,或者4路2080ti 22G拉满qwq-32B Q8 128K上下文,这配置便宜太多,qwq也能有9成满血R1的功力 发现很多人只管模型跑起来,不考虑上下文的显存占用。普通的模型还过得去,但是现在火的R1、QWQ这些思维链模型都会有大量的思考过程,轻轻松松用掉大几千token,不得不考虑上下文,否则你会发现模型思考到后面都忘记了一开始的目的,或者陷入了思考循环。在B站都看到不少UP主测试qwq的时候有这个问题,还下结论说qwq很菜[困惑] Dream_Seeker 发表于 2025-3-12 01:05
发现很多人只管模型跑起来,不考虑上下文的显存占用。普通的模型还过得去,但是现在火的R1、QWQ这些思维链 ...
确实,读一个两三页的pdf大概就要消耗6K的tokens。 8K的上下文根本顶不住 如果证明路径可行,那么就非常省钱了,比如给企事业单位推广和部署低成本,容易买到,价格低的私有AI。 商业机密绝对是企事业最高优先级。 大有可为啊,算力卡对于普通预算紧张的企业几乎遥不可及且越来越难搞到。这个实验非常有意义。 所以 mac studio 也能像 mini 那样用雷电 5 做集群吗?这样岂不是更牛逼?对于某些特定用户来说,可能是能耗比最佳的选择了吧。。。张黑黑的视频里说了,只要 60w 的功耗就能跑了。 我看另一个Up的用mlx已经跑到19T/s了 MDC 发表于 2025-3-11 23:31
好多年?大胆点,满月用到头七
确实是这样 sthuasheng 发表于 2025-3-11 21:38
讲真,用7,8w的mac跑一个速度很慢的模型,我宁可买个1,2w的mac,剩下的钱买api能用好多年了 ...
这就像NAS用户和网盘用户之争一样,网盘用户说你买硬盘、买硬件、装系统、装软件花的时间和金钱都够我百度网盘续费多少多少年了,
NAS用户说,你小电影变8秒 williamqh 发表于 2025-3-11 22:21
这个确实。普通用户API足够了。而且Google Gemini 2.0那个速度吊打任何本地机, 还免费。 ...
gemini 那个合规怪就算了吧,回答的天衣无缝,滴水不漏,仔细一看,毫无软用 kanshuderen 发表于 2025-3-12 07:55
所以 mac studio 也能像 mini 那样用雷电 5 做集群吗?这样岂不是更牛逼?对于某些特定用户来说,可能是能 ...
功耗没那么低,视频中用的asitop只能显示gpu的功耗,实际上跑这个周边功耗非常高,具体是哪里看不出来,猜测是统一内存的原因。
比如我的m4max,跑的时候gpu功耗也是60w不到,但是整机功耗直接拉满。
不要说硬件折旧了,只考虑电费大概都是买API划算。
Aresiusking 发表于 2025-3-12 00:48
默认只能调用75%的内存作为VRAM,小白没解锁所以VRAM根本装不下完整的671b模型(404 G)文件速度就慢了 ...
小白家,我看主要评测手机的,估计ai模型方面不擅长。 gmlee1999 发表于 2025-3-11 22:33
个人用买API省很多,又不是24小时跑,花不了几个钱。
个人买DP的API,可以推荐个桌面和移动端的前端客户端软件么? cherry studio?
页:
[1]
2