找回密码
 加入我们
搜索
      
楼主: 蛋上一道疤

[CPU] M4这下真是把牢英的脸都发打肿了,同样是N3B工艺牢英做出来就是一坨

  [复制链接]
发表于 2024-11-11 23:17 | 显示全部楼层
godspeed66 发表于 2024-11-4 15:56
万分感谢 对 prompt prefill 更 清晰了

prompt prefill 在哪里设置啊  ?


你跑单卡ada 10token/s的话合理怀疑用的是q4_k_m量化, 而不是iq4_xs量化, 前者作为"古典"量化方式, 损失基本一样的情况下bpw比后者高不少, 如果用的是前者的话单卡是会轻微爆显存的, 10token/s就很合理了
MMLU-Correctness-vs-Model-Size.png
发表于 2024-11-11 23:29 | 显示全部楼层

联想销量居然超过戴尔和惠普
发表于 2024-11-12 22:53 | 显示全部楼层
本帖最后由 godspeed66 于 2024-11-13 20:51 编辑
zhuifeng88 发表于 2024-11-11 23:17
你跑单卡ada 10token/s的话合理怀疑用的是q4_k_m量化, 而不是iq4_xs量化, 前者作为"古典"量化方式, 损失 ...


M4 MAX 128G

RAG对话。chatchat+xinference qwen2.5-72b-mlx-8bit

2024-11-12 22:46:38,018 xinference.model.llm.mlx.core 9938 INFO     Average generation speed: 0.59 tokens/s.

2024-11-12 22:51:15,523 xinference.model.llm.mlx.core 9938 INFO     Average generation speed: 0.53 tokens/s.


RAG对话。chatchat+xinference qwen2.5-32b-mlx-8bit

2024-11-12 22:59:05,647 xinference.model.llm.mlx.core 23115 INFO     Average generation speed: 5.81 tokens/s.
2024-11-12 23:00:29,167 xinference.model.llm.mlx.core 23115 INFO     Average generation speed: 6.27 tokens/s.


不知道为啥72b 在RAG环节完蛋了,32B的还行

基本判断是MAC环境下Xinference的问题
发表于 2024-11-12 23:43 | 显示全部楼层
godspeed66 发表于 2024-11-12 22:53
M4 MAX 128G

RAG对话。chatchat+xinference qwen2.5-72b-mlx-8bit

retrieve放进去的context一共多少token
发表于 2024-11-13 08:33 | 显示全部楼层
KMDYX 发表于 2024-10-31 13:24
可能库克都不知道到自家的mac这么牛逼

macos在工业制造还是不行,很多专业软件都没有。
发表于 2024-11-13 20:50 | 显示全部楼层
zhuifeng88 发表于 2024-11-12 23:43
retrieve放进去的context一共多少token

怎么放 不会啊
发表于 2024-11-13 20:59 | 显示全部楼层
本帖最后由 godspeed66 于 2024-11-13 22:50 编辑
zhuifeng88 发表于 2024-11-12 23:43
retrieve放进去的context一共多少token


chatchat + ollama qwen2.5:72b-instruct-q8_0

RAG 同样问题

[GIN] 2024/11/13 - 20:49:21 | 200 |         2m46s |       127.0.0.1 | POST     "/v1/chat/completions"。 反馈927个文字,大约 5.5 tokens/s.  

72B-q8的能力是真好,不知道为啥,分析历史文档的能力明显比int8-MLX的好

非RAG
[GIN] 2024/11/13 - 20:56:18 | 200 |          1m0s |       127.0.0.1 | POST     "/v1/chat/completions"。 反馈546个文字,大约 9.1  tokens/s. (速度不稳定,慢的时候大致6-8 t/s,与回答问题长短有关)

性能和能力 都非常满意




1731503467295.jpg
图片中是使用互联网agent回答问题,反馈889个文字,大约 6.8 tokens/s.
发表于 2024-11-13 21:35 | 显示全部楼层
applebench跑分你也信~
发表于 2024-11-13 22:52 来自手机 | 显示全部楼层
godspeed66 发表于 2024-11-13 20:59
chatchat + ollama qwen2.5:72b-instruct-q8_0

RAG 同样问题

你这个ollama跑得快很可能是因为prompt长度被ollama默认2048截断了 看你截图log倒数第二行警告
xinference默认是不会这样截断的

上面我想问的是你用xinference特别慢的那个 含文档的prompt总长有多少token
发表于 2024-11-14 15:46 | 显示全部楼层
本帖最后由 godspeed66 于 2024-11-14 15:57 编辑
zhuifeng88 发表于 2024-11-13 22:52
你这个ollama跑得快很可能是因为prompt长度被ollama默认2048截断了 看你截图log倒数第二行警告
xinferenc ...


嗯嗯。 注意到了 谢谢。 已经改成32K上下文

ollama show qwen2.5:72b-i-q8-ctx32k
  Model
    architecture        qwen2   
    parameters          72.7B   
    context length      32768   
    embedding length    8192     
    quantization        Q8_0     

  Parameters
    num_ctx    32768   

32K.jpg


速度大约 5 t/s

PS:连续使用一会儿后有的时候速度会掉到3.5 t/s
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2024-11-22 17:22 , Processed in 0.010690 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表