新手本地LLM折腾分享第二弹

秦南瓜 发表于 2025-2-27 19:45

本帖最后由秦南瓜于 2025-2-27 19:50 编辑

前情提要：https://www.chiphell.com/thread-2671875-1-1.html

俩2080ti很快就出掉了，因为我发现44G显存装不下70B Q4，实际推理速度就7~8token/s
这次搞了俩cpu方案和一个双4090(D)方案，看看效果[恶魔]

测试模型&问题：
ollama huihui_deepseek r170B Q4 43GB，32B Q4 20GB,14B Q4 9GB，
1，你是谁
2，人生十大建议

测试对象&数据：

1，9600x pbo+2006c12t 64G 6000c30 无显卡
文字生成时的cpu频率：5.5-5.55Ghz

70b
你是谁1.61 token/s
人生十大建议1.57 token/s

32b
你是谁3.37 token/s
人生十大建议3.27 token/s

14b
你是谁7.82 token/s
人生十大建议7.5 token/s

2，9800x3d pbo +200 8c16t 64G 6000c30 40 40 104 从这个测试可见，消费级x3d在这种工况下没啥卵用，甚至多出来的2c4t都没卵用
文字生成频率5.4-5.45

70b
你是谁1.61 token/s
人生十大建议1.57 token/s

32b
你是谁3.48 token/s
人生十大建议3.4 token/s

14b
你是谁7.77 token/s
人生十大建议7.53 token/s

3，9800x3d pbo +200 8c16t 64G 6000c28 36 36 36这个测试是对比不同时序，时序收紧确实能提升推理速度
文字生成时的cpu频率：5.4-5.45Ghz

70b
你是谁1.63 token/s
人生十大建议1.59 token/s

32b
你是谁3.50 token/s
人生十大建议3.41 token/s

14b
你是谁7.8 token/s
人生十大建议7.57 token/s

4，X299 4090+4090D 48G GDDR6X（PCIE3.0，4090D主卡推理，因为调换位置机箱塞不下[吐槽] ）双卡显存OC+1500要速度还得是GPU[恶魔]

70b
你是谁 21.01 token/s
人生十大建议20.44 token/s

32b
你是谁43.03 token/s
人生十大建议42.54 token/s

14b
你是谁78.58 token/s
人生十大建议77.89 token/s

以上，仅供参考

SkyGZO 发表于 2025-2-27 19:47

写一下Q几吧，方便详细对比

秦南瓜 发表于 2025-2-27 19:50

SkyGZO 发表于 2025-2-27 19:47
写一下Q几吧，方便详细对比

更新了，都是Q4

YsHaNg 发表于 2025-2-27 19:56

要不换llama.cpp吧 ollama太拉了

os39000 发表于 2025-2-27 19:57

速度好快

秦南瓜 发表于 2025-2-27 20:00

YsHaNg 发表于 2025-2-27 19:56
要不换llama.cpp吧 ollama太拉了

主要还是傻瓜

llamacpp 速度有差异不？

YsHaNg 发表于 2025-2-27 20:06

秦南瓜发表于 2025-2-27 12:00
主要还是傻瓜

llamacpp 速度有差异不？

有 llama.cpp实现fa3和fp16 kvcache更好 ollama从12月底到现在都在折腾新model engine加载器没工夫做底层优化项目本身也是几个不太懂c的人开的坑现在open webui社区都在尽量摆脱ollama 期待实现direct llama.cpp api

秦南瓜 发表于 2025-2-27 20:19

YsHaNg 发表于 2025-2-27 20:06
有 llama.cpp实现fa3和fp16 kvcache更好 ollama从12月底到现在都在折腾新model engine加载器没工夫做底层 ...

学习了，那。。lm studio咋样呢？

YsHaNg 发表于 2025-2-27 20:31

秦南瓜发表于 2025-2-27 12:19
学习了，那。。lm studio咋样呢？

lm studio是个大前端设计 js的用户端程序默认调用mlx 兼容llama.cpp runtime 对位的可以看一下https://github.com/CherryHQ/cherry-studio
我比较喜欢http+pwa的实现再加上open webui生态好 docker一键拉全在服务器上用户端有个浏览器就能用
当然追求生产部署开源后端推理框架都是草履虫也就vllm transformers能看一些等社区消化deepseek这5天的产出吧

秦南瓜 发表于 2025-2-27 20:33

YsHaNg 发表于 2025-2-27 20:31
lm studio是个大前端设计 js的用户端程序默认调用mlx 兼容llama.cpp runtime 对位的可以看一下https://g ...

感谢大佬！我就等等整合包吧哈哈哈

longyuyan 发表于 2025-2-27 20:33

学习了，买不起显卡折腾

LNT 发表于 2025-2-27 20:56

双4090提升幅度很小，单个4090 48G在ollama下即可做到70b q4 19tokens/s

秦南瓜 发表于 2025-2-27 20:58

LNT 发表于 2025-2-27 20:56
双4090提升幅度很小，单个4090 48G在ollama下即可做到70b q4 19tokens/s

是的。就叠个显存。。嗯？那岂不是4090+3090也行？？

LNT 发表于 2025-2-27 21:10

秦南瓜发表于 2025-2-27 20:58
是的。就叠个显存。。嗯？那岂不是4090+3090也行？？

双3090也有16个tokens/s...结合部署难度，主板需求，电源需求。。。还是单4090 48G吧。。。70b跑一下还剩3~4G的显存，一般的上下文也够了

enolc 发表于 2025-2-27 21:21

X299的CPU是啥？

DoubleWood 发表于 2025-2-27 21:22

你觉得CPU没什么卵用，是因为瓶颈在内存带宽，70B的模型是43G，上限就是你的内存带宽/43G，你猜人家CPU跑为啥要用至强、epyc，还要组双路？

秦南瓜 发表于 2025-2-27 21:43

DoubleWood 发表于 2025-2-27 21:22
你觉得CPU没什么卵用，是因为瓶颈在内存带宽，70B的模型是43G，上限就是你的内存带宽/43G，你猜人家CPU跑为 ...

拜托看贴看全。。。。。这是对比9800x3d和9600x，说的是3d缓存这个工况没卵用

testmepro 发表于 2025-2-27 21:43

本帖最后由 testmepro 于 2025-2-27 21:55 编辑

秦南瓜发表于 2025-2-27 20:00
主要还是傻瓜

llamacpp 速度有差异不？

我记着我好像说过..此条作废

秦南瓜 发表于 2025-2-27 21:43

enolc 发表于 2025-2-27 21:21
X299的CPU是啥？

10900X ES QSTZ 全核心4.9

页: [1]

Chiphell - 分享与交流用户体验's Archiver

新手本地LLM折腾分享 第二弹

新手本地LLM折腾分享第二弹