|
本帖最后由 zhuifeng88 于 2024-11-3 11:25 编辑
你细看就会发现他运行的代码和跑的结果的时间是对不上号的
Qwen2.5-72B-Instruct-MLX-8bit参数量大约是75GiB, 哪怕不考虑中间结果存取的带宽消耗, 光参数load跑到10.7token/s所需的带宽(>800GiB/s)就超过m2 ultra实际payload可能达到的上限了(680GiB/s)
这指向几种可能, 比如
1. 给出的generation性能计算误差很大
2. 下面性能和上面代码并不对应, 比如用的是不同的模型
但不管怎么说, 这个给出的性能都是完全不靠谱的
顺便给一个数值上看起来比较合理的m2 ultra跑4bit(mlx)的参考, 大约37GiB参数量, 这个数值比m2 ultra在扔掉mlx的前提下能跑的低一点(~20%)
https://www.reddit.com/r/ollama/ ... am_and_ilama31_70b/
- Thanks for bringing up the topic—I gave it a try! Here’s the benchmark for Qwen2.5:72B with Ollama and MLX-ML:
- • Ollama (Qwen2.5:72B): 6.95 t/s
- • MLX (mlx-community/Qwen2.5-72B-Instruct-4bit): 8.14 t/s
- • Ollama (Gemma2:27B): 19.39 t/s
- The 70B model isn’t ideal for smooth use, but it’s not unusable—it feels just a bit slower than **-4o.
复制代码
再顺便一提, 6000ada prompt prefill bs1能达到~1000token/s, 而m2 ultra要低超过一个数量级, 这对于文档总结/RAG之类来说几乎是不可用的
与此同时, 48G显存的L20只要2w块出头, 推理用这个可合理多了 |
|