新手本地LLM折腾分享 第二弹
本帖最后由 秦南瓜 于 2025-2-27 19:50 编辑前情提要:https://www.chiphell.com/thread-2671875-1-1.html
俩2080ti很快就出掉了,因为我发现44G显存装不下70B Q4,实际推理速度就7~8token/s
这次搞了俩cpu方案和一个双4090(D)方案,看看效果[恶魔]
测试模型&问题:
ollama huihui_deepseek r170B Q4 43GB,32B Q4 20GB,14B Q4 9GB,
1,你是谁
2,人生十大建议
测试对象&数据:
1,9600x pbo+2006c12t 64G 6000c30 无显卡
文字生成时的cpu频率:5.5-5.55Ghz
70b
你是谁1.61 token/s
人生十大建议1.57 token/s
32b
你是谁3.37 token/s
人生十大建议3.27 token/s
14b
你是谁7.82 token/s
人生十大建议7.5 token/s
2,9800x3d pbo +200 8c16t 64G 6000c30 40 40 104 从这个测试可见,消费级x3d在这种工况下没啥卵用,甚至多出来的2c4t都没卵用
文字生成频率5.4-5.45
70b
你是谁1.61 token/s
人生十大建议1.57 token/s
32b
你是谁3.48 token/s
人生十大建议3.4 token/s
14b
你是谁7.77 token/s
人生十大建议7.53 token/s
3,9800x3d pbo +200 8c16t 64G 6000c28 36 36 36这个测试是对比不同时序,时序收紧确实能提升推理速度
文字生成时的cpu频率:5.4-5.45Ghz
70b
你是谁1.63 token/s
人生十大建议1.59 token/s
32b
你是谁3.50 token/s
人生十大建议3.41 token/s
14b
你是谁7.8 token/s
人生十大建议7.57 token/s
4,X299 4090+4090D 48G GDDR6X(PCIE3.0,4090D主卡推理,因为调换位置机箱塞不下[吐槽] )双卡显存OC+1500要速度还得是GPU[恶魔]
70b
你是谁 21.01 token/s
人生十大建议20.44 token/s
32b
你是谁43.03 token/s
人生十大建议42.54 token/s
14b
你是谁78.58 token/s
人生十大建议77.89 token/s
以上,仅供参考
写一下Q几吧,方便详细对比 SkyGZO 发表于 2025-2-27 19:47
写一下Q几吧,方便详细对比
更新了,都是Q4 要不换llama.cpp吧 ollama太拉了 速度好快 YsHaNg 发表于 2025-2-27 19:56
要不换llama.cpp吧 ollama太拉了
主要还是傻瓜
llamacpp 速度有差异不? 秦南瓜 发表于 2025-2-27 12:00
主要还是傻瓜
llamacpp 速度有差异不?
有 llama.cpp实现fa3和fp16 kvcache更好 ollama从12月底到现在都在折腾新model engine加载器没工夫做底层优化 项目本身也是几个不太懂c的人开的坑 现在open webui社区都在尽量摆脱ollama 期待实现direct llama.cpp api YsHaNg 发表于 2025-2-27 20:06
有 llama.cpp实现fa3和fp16 kvcache更好 ollama从12月底到现在都在折腾新model engine加载器没工夫做底层 ...
学习了,那。。lm studio咋样呢? 秦南瓜 发表于 2025-2-27 12:19
学习了,那。。lm studio咋样呢?
lm studio是个大前端设计 js的用户端程序 默认调用mlx 兼容llama.cpp runtime 对位的可以看一下https://github.com/CherryHQ/cherry-studio
我比较喜欢http+pwa的实现 再加上open webui生态好 docker一键拉全在服务器上 用户端有个浏览器就能用
当然追求生产部署开源后端推理框架都是草履虫 也就vllm transformers能看一些 等社区消化deepseek这5天的产出吧 YsHaNg 发表于 2025-2-27 20:31
lm studio是个大前端设计 js的用户端程序 默认调用mlx 兼容llama.cpp runtime 对位的可以看一下https://g ...
感谢大佬!我就等等整合包吧哈哈哈 学习了,买不起显卡折腾 双4090提升幅度很小,单个4090 48G在ollama下即可做到70b q4 19tokens/s LNT 发表于 2025-2-27 20:56
双4090提升幅度很小,单个4090 48G在ollama下即可做到70b q4 19tokens/s
是的。就叠个显存。。嗯?那岂不是4090+3090也行?? 秦南瓜 发表于 2025-2-27 20:58
是的。就叠个显存。。嗯?那岂不是4090+3090也行??
双3090也有16个tokens/s...结合部署难度,主板需求,电源需求。。。还是单4090 48G吧。。。70b跑一下还剩3~4G的显存,一般的上下文也够了 X299的CPU是啥? 你觉得CPU没什么卵用,是因为瓶颈在内存带宽,70B的模型是43G,上限就是你的内存带宽/43G,你猜人家CPU跑为啥要用至强、epyc,还要组双路? DoubleWood 发表于 2025-2-27 21:22
你觉得CPU没什么卵用,是因为瓶颈在内存带宽,70B的模型是43G,上限就是你的内存带宽/43G,你猜人家CPU跑为 ...
拜托看贴看全。。。。。这是对比9800x3d和9600x,说的是3d缓存这个工况没卵用 本帖最后由 testmepro 于 2025-2-27 21:55 编辑
秦南瓜 发表于 2025-2-27 20:00
主要还是傻瓜
llamacpp 速度有差异不?
我记着我好像说过..此条作废 enolc 发表于 2025-2-27 21:21
X299的CPU是啥?
10900X ES QSTZ 全核心4.9
页:
[1]