M4这下真是把牢英的脸都发打肿了，同样是N3B工艺牢英做出来就是一坨

zhuifeng88 · 发表于 2024-11-11 23:17

godspeed66 发表于 2024-11-4 15:56
万分感谢对 prompt prefill 更清晰了

prompt prefill 在哪里设置啊 ?

你跑单卡ada 10token/s的话合理怀疑用的是q4_k_m量化, 而不是iq4_xs量化, 前者作为"古典"量化方式, 损失基本一样的情况下bpw比后者高不少, 如果用的是前者的话单卡是会轻微爆显存的, 10token/s就很合理了

Krakenius · 发表于 2024-11-11 23:29

秋天的酒发表于 2024-10-31 15:24
“我身边都是”

联想销量居然超过戴尔和惠普

godspeed66 · 发表于 2024-11-12 22:53

本帖最后由 godspeed66 于 2024-11-13 20:51 编辑

zhuifeng88 发表于 2024-11-11 23:17
你跑单卡ada 10token/s的话合理怀疑用的是q4_k_m量化, 而不是iq4_xs量化, 前者作为"古典"量化方式, 损失 ...

M4 MAX 128G

RAG对话。chatchat+xinference qwen2.5-72b-mlx-8bit

2024-11-12 22:46:38,018 xinference.model.llm.mlx.core 9938 INFO    Average generation speed: 0.59 tokens/s.

2024-11-12 22:51:15,523 xinference.model.llm.mlx.core 9938 INFO    Average generation speed: 0.53 tokens/s.

RAG对话。chatchat+xinference qwen2.5-32b-mlx-8bit

2024-11-12 22:59:05,647 xinference.model.llm.mlx.core 23115 INFO    Average generation speed: 5.81 tokens/s.
2024-11-12 23:00:29,167 xinference.model.llm.mlx.core 23115 INFO    Average generation speed: 6.27 tokens/s.

~~不知道为啥72b 在RAG环节完蛋了，~~32B的还行

基本判断是MAC环境下Xinference的问题

zhuifeng88 · 发表于 2024-11-12 23:43

godspeed66 发表于 2024-11-12 22:53
M4 MAX 128G

RAG对话。chatchat+xinference qwen2.5-72b-mlx-8bit

retrieve放进去的context一共多少token

dxh216 · 发表于 2024-11-13 08:33

KMDYX 发表于 2024-10-31 13:24
可能库克都不知道到自家的mac这么牛逼

macos在工业制造还是不行，很多专业软件都没有。

godspeed66 · 发表于 2024-11-13 20:50

zhuifeng88 发表于 2024-11-12 23:43
retrieve放进去的context一共多少token

怎么放

不会啊

godspeed66 · 发表于 2024-11-13 20:59

本帖最后由 godspeed66 于 2024-11-13 22:50 编辑

zhuifeng88 发表于 2024-11-12 23:43
retrieve放进去的context一共多少token

chatchat + ollama qwen2.5:72b-instruct-q8_0

RAG 同样问题

[GIN] 2024/11/13 - 20:49:21 | 200 | 2m46s | 127.0.0.1 | POST "/v1/chat/completions"。反馈927个文字，大约 5.5 tokens/s.

72B-q8的能力是真好，不知道为啥，分析历史文档的能力明显比int8-MLX的好

非RAG
[GIN] 2024/11/13 - 20:56:18 | 200 | 1m0s | 127.0.0.1 | POST "/v1/chat/completions"。反馈546个文字，大约 9.1 tokens/s. （速度不稳定，慢的时候大致6-8 t/s，与回答问题长短有关)

性能和能力都非常满意

图片中是使用互联网agent回答问题，反馈889个文字，大约 6.8 tokens/s.

sciwander · 发表于 2024-11-13 21:35

applebench跑分你也信~

zhuifeng88 · 发表于 2024-11-13 22:52

godspeed66 发表于 2024-11-13 20:59
chatchat + ollama qwen2.5:72b-instruct-q8_0

RAG 同样问题

你这个ollama跑得快很可能是因为prompt长度被ollama默认2048截断了看你截图log倒数第二行警告
xinference默认是不会这样截断的

上面我想问的是你用xinference特别慢的那个含文档的prompt总长有多少token

godspeed66 · 发表于 2024-11-14 15:46

本帖最后由 godspeed66 于 2024-11-14 15:57 编辑

zhuifeng88 发表于 2024-11-13 22:52
你这个ollama跑得快很可能是因为prompt长度被ollama默认2048截断了看你截图log倒数第二行警告
xinferenc ...

嗯嗯。注意到了谢谢。已经改成32K上下文

ollama show qwen2.5:72b-i-q8-ctx32k
  Model
architecture       qwen2
parameters       72.7B
context length    32768
embedding length 8192
quantization       Q8_0

  Parameters
num_ctx 32768

速度大约 5 t/s

PS:连续使用一会儿后有的时候速度会掉到3.5 t/s

账号		自动登录	找回密码
密码			加入我们

[CPU] M4这下真是把牢英的脸都发打肿了，同样是N3B工艺牢英做出来就是一坨