M4这下真是把牢英的脸都发打肿了，同样是N3B工艺牢英做出来就是一坨

godspeed66 · 发表于 2024-11-3 22:55

zhuifeng88 发表于 2024-11-3 11:10
你细看就会发现他运行的代码和跑的结果的时间是对不上号的
Qwen2.5-72B-Instruct-MLX-8bit参数量大约是75 ...

感谢你的数据，但你的推理结论，在日常家用和移动办公环境不成立。

分析如下：

1.  L20不能直接满足家用： L20是IDC产品，依靠风道的，  需要专业服务器和机房，不能直接家用；要想家用需要改水冷或涡轮风扇，都需要较强的动手能力和较强的硬件意外损坏承受能力；L20裸卡拥有成本2.7万可不是2万多是将近3万，加上配套的主板、内存、CPU等，大约总体拥有成本在3.5~5W之间；

2. RTX 6000 ADA 5.7~5.9万一张，基本满足使用需求，总体拥有成本在6.5万以上；

RTX 6000 ADA的日常家用的推理速度就是 10-15tokens/s （chatchat+xinference vllm) ，L20只会更慢；

PS:私以为日常家用跟 prompt prefill 没关系，因为家用，不会用LLM成天问一摸一样的问题，不会每天分析同一个文章来帮助自己工作学习，不会期待每个问题的答案都像WORD答案提纲一致，因此跟 prompt prefill ~1000 tokens/s没关系；

不论是你提供的8.14 tokens/s 还是网上Llama3.1:70b-instruct-q4_0 (39 GB)约 13.5 token/s ，很明显，在70B体积模型应用下，MAC 在同等价位下已经是很好的选择。
（https://www.bilibili.com/video/B ... e55c39a32297a8748ef）

另与4.7万的macbook pro（M4 MAX 128G 2TB 140W电源含AC+）相比，L20 、RTX 6000 ADA 不能满足家用出差场景、临时在途中办公的需求，且速度没啥优势。

与5W的 Mac Studio M2 Ultra 192GB相比，L20 、RTX 6000 ADA、RTX 4090*2价格上基本算劣势（直接从官网7.8W买的MAC PRO那种当我没说，现在官网买M2 Ultra 192GB 有种**入那啥的感觉）、速度上优势不大。。。。。，至于M2 Ultra 192GB 的统一内存比 48G 显存在容量上优势巨大

家用宽带发布到互联网有风险，且风险不能承受！！！谁敢把敏感资料暴露到网上，要不是这么敏感直接用网上的各种LLM多好；

目前我的临时解决方案是控制IP后发布网上，每次使用都要远程改ACL，日常便捷使用差点意思，且只敢用这台机器回答些问题，敏感内容不会放在这台电脑上。

（PS：不要相信一大群人每天花大量时间去做开源软件，这些人都是奉献精神，自我洗脑——开源==里面都是后门，要都这么有奉献精神，不至于有这么多搞安全的公司了，里面肯定会混进去有另坏心思的人）

至于大神的各种魔改的零信任敲门端口验证+证书，这个门槛太高，普及不了，不能属于家用了。

至于 RTX 4090笔记本，真没用，小模型分析全文效果差，跑72B Q4速度只有1.7~1.95 tokens/s，远低于阅读速度，问题等待时间漫长，会溜号的，因此实际没法用。

RTX 4090 的Y9000P  大约2.45万，与macbook pro 比  在 LLM 方面真是不行，但RTX 4090笔记本可以出图，做PPT时加个靓点图片挺好用的，MAC SD之类出图貌似不能。

PS：
正准备买 macbook pro中，不知道能不能用的习惯，最主要的是我还在14寸与16寸之间犹豫。

沈阳万象城的苹果直营店技术一问三不知，问性能区别告诉我只要是一个芯片就一样，14寸\ 16寸\  MAC Studio\ MAC PRO  在芯片配置相同时，性能是一样的，我真是不能理解。难道苹果真的这样？  打算去北京的再问问。

ekiuc · 发表于 2024-11-3 23:01

本帖最后由 ekiuc 于 2024-11-4 00:13 编辑

TShan 发表于 2024-11-3 22:36
不是你觉得没啥问题就没啥问题。
开发端和打包出来的游戏完全是两码事，ps4版还不是在pc上开发完成的。
C ...

不是，之前讨论的不就是那套引擎能不能上macOS么，同引擎减配版都已经上ios/ipados了，在mac上运行就是一个playcover的事情（但是分辨率有点问题，会被封），这还是从桌面端的imr到apple gpu family的tbdr这种大变动，当然真正要在macOS上完美运行还有额外的工作，但是至少第一步已经迈出去了，咱们不需要做这么多假设吗……

还有机器成本……就，有前辈过给某大厂的GPU架构做定向的性能监测和优化的历史（当然合作方是硬件厂商不是游戏开发商），多少见识过一点大厂的游戏开发的环境，现在开发机还没有普及到HEDT平台吧？正经一点的不应该是高性能品牌机为主吗，那玩意升级价格虽然比不得苹果核心，但是也不便宜吧～

当然苹果的内存确实是金子价，游戏行业的待遇也在程序员里不算高的，但是哪怕整个appleOS组人手满配Mac Studio，我挺怀疑这机器成本会对整个开发成本有多大影响的。这点钱能不能给多加的程序员发几个月工资都难说。我认识做出海弱智游戏的，都能轻松买得起高配mac pro一放，专门用来做打包（mac pro 2019的时候直接买六通道插满的苹果黑条，当时让还在捡服务器拆机条的我确实震撼了一把）。给苹果专门做移植的工作室我知道，最近苹果最近也隔三差五也能找到两个厂移植几个3a来，最近甚至说来了蠢驴的2077，卖的差是真的，但是倒在机器成本上的还真是闻所未闻

zhuifeng88 · 发表于 2024-11-4 01:58

penryn 发表于 2024-11-3 20:30
不太明白，6000ada的带宽比m2u高了不到一半，为啥性能会差一个数量级？

prefill是计算瓶颈不是带宽瓶颈

zhuifeng88 · 发表于 2024-11-4 02:08

本帖最后由 zhuifeng88 于 2024-11-4 03:15 编辑

godspeed66 发表于 2024-11-3 22:55
感谢你的数据，但你的推理结论，在日常家用和移动办公环境不成立。

分析如下：

关于prefill

就我的使用情况而言prompt prefill是大头之一
至少我认为更实用的场景是结合相关性比较好的本地文档片段+搜索结果回答问题, 而不是让llm在没有额外上下文的情况下胡编乱造
相关性比较好的本地文档片段和搜索结果基本上会每个问题之前有至少大几千token的prefill负载进去, 然后生成几十-几百token的回答

prefill的覆盖的面远不止
"不会用LLM成天问一摸一样的问题，不会每天分析同一个文章来帮助自己工作学习，不会期待每个问题的答案都像WORD答案提纲一致"

任何很长的prompt, 包括多轮对话的first token响应时间吃的都是prefill, 从你贴的视频跑llama3.1 70b的片段也可以看到, m2 ultra多轮对话响应非常慢

(甚至就你的描述而言, 我觉得你是不是混淆了单纯的prefill和重用kv cache(prefill的结果), 只有后者才需要同一个文档或者同一个问题才能发挥作用, 而前者决定了不命中任何cache的情况下的TTFT

关于硬件

l20裸卡实际到手价格不含税就在2w4左右现在, 没你想的那么贵, 平台的话肯定是考虑插在现有平台上的, 所以不额外算钱, 当然不希望一定程度的自己动手就算了
另外你贴的视频是用ollama推理的, 单任务性能是比vllm/xinference的量化推理快一点的, 在ollama下l40s(和l20一样是864GB/s带宽, 略低于6000ada)跑qwen2.5 72b 4bit是大约17token/s
$TXSO@HNL_9W[~5TFZW7@X{R.png$

当然你有很明确的移动需求的话那另说

kingofgu · 发表于 2024-11-4 02:43

ux4d 发表于 2024-10-31 15:55
内存带宽这么大，简直先天CFD圣体，然而fluent没有mac平台的，类似的工程仿真软件似乎只有COMSOL Multiphys ...

COMSOL mac版很难用最后直接用学校的服务器是唯一解

kingofgu · 发表于 2024-11-4 02:45

dcl2009 发表于 2024-10-31 16:38
尴尬死了，干研发的哪个文档不是千页起步，几百页的都算小文档

随便贴一个文档吧，我维护的类似文档有十 ...

考虑迁移到LaTeX吗几千页的word看的真的头疼

Alienxzy · 发表于 2024-11-4 03:10

蛋上一道疤发表于 2024-10-31 13:35
其实还是生态的问题，等到身边的人都是Mac了之后，那就是换谁用windows谁乱码了 ...

等到身边的人都是Mac

额，从市场来看，Mac销量是有提升，但是市占率没啥变化，也就是说只是把老intel mac用户变成了Apple Silicon mac罢了

Ownab · 发表于 2024-11-4 08:22

BloodRaining 发表于 2024-11-1 12:13
Mac用户以为的生产力，视频音乐照片Office文档，真正的生产力： Pro E / UG / Solidwork / Catia / Maya / ...

你这都是粗活~ 你看看电视剧里的白领精英哪有用mac画3D的哈哈哈哈

ux4d · 发表于 2024-11-4 08:41

kingofgu 发表于 2024-11-4 02:43
COMSOL mac版很难用最后直接用学校的服务器是唯一解

相比win版和linux版难用在哪儿，可否列举一二

pdww269hit · 发表于 2024-11-4 09:10

KimmyGLM 发表于 2024-10-31 13:34
我以前拿word写过论文，MAC上显示格式都没啥问题，结果传到别人电脑上，全TM乱的。
气死我了 ...

乱码主要是矢量图部分吧，那个确实暂时无解

KimmyGLM · 发表于 2024-11-4 09:14

pdww269hit 发表于 2024-11-4 09:10
乱码主要是矢量图部分吧，那个确实暂时无解

我上一次用独立版本的mac office已经很久了，格式编排也有问题，比如最简单的首行缩进，两边对齐，以及提纲/目录板式；

365 后面能解决，但我也不再用mac了，体验十分噩梦。

dcl2009 · 发表于 2024-11-4 09:44

kingofgu 发表于 2024-11-4 02:45
考虑迁移到LaTeX吗几千页的word看的真的头疼

需要随时修改和兼容性，没考虑过LaTeX

pdww269hit · 发表于 2024-11-4 11:22

KimmyGLM 发表于 2024-11-4 09:14
我上一次用独立版本的mac office已经很久了，格式编排也有问题，比如最简单的首行缩进，两边对齐，以及提 ...

365依然有矢量图乱码的问题，Win下编辑的矢量图/Visio绘图里面的文字到mac上显示的就是乱码，解决方式就是用浏览器在线查看（配合Onedrive），或者用keynote打开将矢量图另存为图片...

JRJRJR · 发表于 2024-11-4 11:38

穷B上了M4和9950X3D再来说。

helllkz · 发表于 2024-11-4 15:02

qi1980 发表于 2024-10-31 13:29
可以用PD安装arm版Windows，里面再装Windows版的Office365。PD支持融合模式，相当于你直接在macOS里运行W ...

你这一套正版下来，成本真高

tankren · 发表于 2024-11-4 15:12

那MAC今年的市占率可以到99%了吧？

myislg2 · 发表于 2024-11-4 15:56

本帖最后由 myislg2 于 2024-11-4 16:01 编辑

我理解的生产力软件是咱们各行业里用的行业软件，据报道说，我国拥有联合国分的41个工业大类、207个中类、666个小类的全部种类，这些种类都用到不同的设计、分析、生产软件。可以说是涵盖咱们的衣食住行。不知道mac os支持多少和支持得怎么样。至于Office这类软件，我理解为基础软件，仅次于操作系统的。

godspeed66 · 发表于 2024-11-4 15:56

本帖最后由 godspeed66 于 2024-11-4 16:15 编辑

zhuifeng88 发表于 2024-11-4 02:08
关于prefill

就我的使用情况而言prompt prefill是大头之一

万分感谢对 prompt prefill 更清晰了

prompt prefill 在哪里设置啊 ?

另，为啥你L40S 单卡 4BIT 就能17 t/s，我用带宽更大的4090 *2 才35 t/s， 6000 ADA *2 30 t/s，单卡ada才才10t ？是哪块有什么优化设置吗？

kuram · 发表于 2024-11-4 16:09

没懂说的啥？？说了一大堆的东西又表述不清楚

ssz999 · 发表于 2024-11-4 16:20

请问高贵的M4 MAX需要多少钱才能买到

continuing · 发表于 2024-11-4 16:22

ekiuc 发表于 2024-11-3 23:01
不是，之前讨论的不就是那套引擎能不能上macOS么，同引擎减配版都已经上ios/ipados了，在mac上运行就是一 ...

上桌面端的问题不在于引擎，在于反作弊
目前已有的几乎所有本地反作弊系统在MAC上都难以运行，但这个东西并不能不加

ekiuc · 发表于 2024-11-4 19:21

continuing 发表于 2024-11-4 16:22
上桌面端的问题不在于引擎，在于反作弊
目前已有的几乎所有本地反作弊系统在MAC上都难以运行，但这个东西 ...

这个我倒是真没了解过，我的认识还停留在几年前谁（好像是epic）做了个原生的mac反作弊出来

这玩意难道有什么系统层面的难度吗，我感觉只是完全没有用户，所以也没人做

qi1980 · 发表于 2024-11-5 08:54

helllkz 发表于 2024-11-4 15:02
你这一套正版下来，成本真高

也就多个PD，正版的话，每年几百块钱，不想花钱有各种方法。至少这种使用方式能解决绝大多数除了大型3A游戏以外的在mac上运行Windows软件的需求！

huihuige · 发表于 2024-11-5 10:21

1、买回来还得折腾装windows
2、默认键盘和日常的win键盘诸多不一样，还得适应
3、装了windows为啥我不直接用正常的win本

我輩樹である · 发表于 2024-11-5 10:29

本帖最后由我輩樹である于 2024-11-5 10:34 编辑

godspeed66 发表于 2024-11-3 22:55
感谢你的数据，但你的推理结论，在日常家用和移动办公环境不成立。

分析如下：

长期满载不要买14inch的，噪音赛神舟。

价格两者只有ac+的区别。

但是mac下软件生态确实不如windows/linux，但是只是推理的话问题不大。

在很多情况你还是需要有一台cuda机器完成诸如bitsandbytes的处理。

你需要关注mlx社区的发展，不仅仅是那几个跨平台框架。

med · 发表于 2024-11-5 15:23

latex不适合交换文件。中文有些老东西还在用cjk包，mac上用不了或者很麻烦。

zmruc · 发表于 2024-11-5 16:08

苹果的ppt还那么多人信么

godspeed66 · 发表于 2024-11-7 08:51

我輩樹である发表于 2024-11-5 10:29
长期满载不要买14inch的，噪音赛神舟。

价格两者只有ac+的区别。

非常感谢

已经下单16寸的 14~16号到货

另外又新增了2张4090D-48G 大约周五到货

godspeed66 · 发表于 2024-11-11 21:39

本帖最后由 godspeed66 于 2024-11-11 22:40 编辑

zhuifeng88 发表于 2024-11-4 02:08
关于prefill

就我的使用情况而言prompt prefill是大头之一

M4 MAX 128G.

Qwen2.5-72B-Instruct-MLX-8bit
2024-11-11 21:48:33,041 xinference.model.llm.mlx.core 6584 INFO    Average generation speed: 6.00 tokens/s.
2024-11-11 21:50:01,767 xinference.model.llm.mlx.core 6584 INFO    Average generation speed: 6.21 tokens/s.
2024-11-11 21:57:26,494 xinference.model.llm.mlx.core 6584 INFO    Average generation speed: 5.97 tokens/s.
2024-11-11 21:58:35,132 xinference.model.llm.mlx.core 6584 INFO    Average generation speed: 5.87 tokens/s.
2024-11-11 22:00:47,362 xinference.model.llm.mlx.core 6584 INFO    Average generation speed: 6.10 tokens/s.
2024-11-11 22:02:46,322 xinference.model.llm.mlx.core 6584 INFO    Average generation speed: 6.24 tokens/s.

Qwen2.5-72B-Instruct-MLX-4bit
2024-11-11 22:36:49,407 xinference.model.llm.mlx.core 7166 INFO    Average generation speed: 11.10 tokens/s.
2024-11-11 22:37:59,648 xinference.model.llm.mlx.core 7166 INFO    Average generation speed: 11.36 tokens/s.
2024-11-11 22:39:27,739 xinference.model.llm.mlx.core 7166 INFO    Average generation speed: 11.76 tokens/s.

Qwen2.5-32B-Instruct-MLX-8bit
2024-11-11 22:18:34,927 xinference.model.llm.mlx.core 6927 INFO    Average generation speed: 13.88 tokens/s.
2024-11-11 22:19:15,336 xinference.model.llm.mlx.core 6927 INFO    Average generation speed: 13.91 tokens/s.
2024-11-11 22:20:27,854 xinference.model.llm.mlx.core 6927 INFO    Average generation speed: 13.53 tokens/s.

zhuifeng88 · 发表于 2024-11-11 23:05

godspeed66 发表于 2024-11-11 21:39
M4 MAX 128G.

那还比预想的略好点

账号		自动登录	找回密码
密码			加入我们

[CPU] M4这下真是把牢英的脸都发打肿了，同样是N3B工艺牢英做出来就是一坨