找回密码
 加入我们
搜索
      
查看: 1214|回复: 18

[显卡] 新手本地LLM折腾分享 第二弹

[复制链接]
发表于 2025-2-27 19:45 | 显示全部楼层 |阅读模式
本帖最后由 秦南瓜 于 2025-2-27 19:50 编辑

前情提要:https://www.chiphell.com/thread-2671875-1-1.html

俩2080ti很快就出掉了,因为我发现44G显存装不下70B Q4,实际推理速度就7~8token/s
这次搞了俩cpu方案和一个双4090(D)方案,看看效果
CB368CD6DB842C855C5AECAFA16432C3.png
4F4EA81B39DCA2B0DDF3A9F87C774854.png


测试模型&问题:
ollama huihui_deepseek r1  70B Q4 43GB,32B Q4 20GB,  14B Q4 9GB,
1,你是谁
2,人生十大建议


测试对象&数据:

1,9600x pbo+200  6c12t 64G 6000c30 无显卡  
文字生成时的cpu频率:5.5-5.55Ghz

70b
你是谁1.61 token/s
人生十大建议1.57 token/s

32b
你是谁3.37 token/s
人生十大建议3.27 token/s

14b
你是谁7.82 token/s
人生十大建议7.5 token/s


2,9800x3d pbo +200 8c16t 64G 6000c30 40 40 104 从这个测试可见,消费级x3d在这种工况下没啥卵用,甚至多出来的2c4t都没卵用
文字生成频率5.4-5.45

70b
你是谁1.61 token/s
人生十大建议1.57 token/s

32b
你是谁3.48 token/s
人生十大建议3.4 token/s

14b
你是谁7.77 token/s
人生十大建议7.53 token/s

3,9800x3d pbo +200 8c16t 64G 6000c28 36 36 36  这个测试是对比不同时序,时序收紧确实能提升推理速度
文字生成时的cpu频率:5.4-5.45Ghz

70b
你是谁1.63 token/s
人生十大建议1.59 token/s

32b
你是谁3.50 token/s
人生十大建议3.41 token/s

14b
你是谁7.8 token/s
人生十大建议7.57 token/s

4,X299 4090+4090D 48G GDDR6X(PCIE3.0,4090D主卡推理,因为调换位置机箱塞不下 )双卡显存OC+1500  要速度还得是GPU

70b
你是谁 21.01 token/s
人生十大建议20.44 token/s

32b
你是谁43.03 token/s
人生十大建议42.54 token/s

14b
你是谁78.58 token/s
人生十大建议77.89 token/s



以上,仅供参考
发表于 2025-2-27 19:47 | 显示全部楼层
写一下Q几吧,方便详细对比
 楼主| 发表于 2025-2-27 19:50 | 显示全部楼层
SkyGZO 发表于 2025-2-27 19:47
写一下Q几吧,方便详细对比

更新了,都是Q4
发表于 2025-2-27 19:56 来自手机 | 显示全部楼层
要不换llama.cpp吧 ollama太拉了
发表于 2025-2-27 19:57 | 显示全部楼层
速度好快
 楼主| 发表于 2025-2-27 20:00 来自手机 | 显示全部楼层
YsHaNg 发表于 2025-2-27 19:56
要不换llama.cpp吧 ollama太拉了

主要还是傻瓜

llamacpp 速度有差异不?
发表于 2025-2-27 20:06 来自手机 | 显示全部楼层
秦南瓜 发表于 2025-2-27 12:00
主要还是傻瓜

llamacpp 速度有差异不?

有 llama.cpp实现fa3和fp16 kvcache更好 ollama从12月底到现在都在折腾新model engine加载器没工夫做底层优化 项目本身也是几个不太懂c的人开的坑 现在open webui社区都在尽量摆脱ollama 期待实现direct llama.cpp api
 楼主| 发表于 2025-2-27 20:19 来自手机 | 显示全部楼层
YsHaNg 发表于 2025-2-27 20:06
有 llama.cpp实现fa3和fp16 kvcache更好 ollama从12月底到现在都在折腾新model engine加载器没工夫做底层 ...

学习了,那。。lm studio咋样呢?
发表于 2025-2-27 20:31 来自手机 | 显示全部楼层
秦南瓜 发表于 2025-2-27 12:19
学习了,那。。lm studio咋样呢?

lm studio是个大前端设计 js的用户端程序 默认调用mlx 兼容llama.cpp runtime 对位的可以看一下https://github.com/CherryHQ/cherry-studio
我比较喜欢http+pwa的实现 再加上open webui生态好 docker一键拉全在服务器上 用户端有个浏览器就能用
当然追求生产部署开源后端推理框架都是草履虫 也就vllm transformers能看一些 等社区消化deepseek这5天的产出吧
 楼主| 发表于 2025-2-27 20:33 来自手机 | 显示全部楼层
YsHaNg 发表于 2025-2-27 20:31
lm studio是个大前端设计 js的用户端程序 默认调用mlx 兼容llama.cpp runtime 对位的可以看一下https://g ...

感谢大佬!我就等等整合包吧哈哈哈
发表于 2025-2-27 20:33 | 显示全部楼层
学习了,买不起显卡折腾
发表于 2025-2-27 20:56 | 显示全部楼层
双4090提升幅度很小,单个4090 48G在ollama下即可做到70b q4 19tokens/s
 楼主| 发表于 2025-2-27 20:58 来自手机 | 显示全部楼层
LNT 发表于 2025-2-27 20:56
双4090提升幅度很小,单个4090 48G在ollama下即可做到70b q4 19tokens/s

是的。就叠个显存。。嗯?那岂不是4090+3090也行??
发表于 2025-2-27 21:10 | 显示全部楼层
秦南瓜 发表于 2025-2-27 20:58
是的。就叠个显存。。嗯?那岂不是4090+3090也行??

双3090也有16个tokens/s...结合部署难度,主板需求,电源需求。。。还是单4090 48G吧。。。70b跑一下还剩3~4G的显存,一般的上下文也够了
发表于 2025-2-27 21:21 | 显示全部楼层
X299的CPU是啥?
发表于 2025-2-27 21:22 | 显示全部楼层
你觉得CPU没什么卵用,是因为瓶颈在内存带宽,70B的模型是43G,上限就是你的内存带宽/43G,你猜人家CPU跑为啥要用至强、epyc,还要组双路?
 楼主| 发表于 2025-2-27 21:43 | 显示全部楼层
DoubleWood 发表于 2025-2-27 21:22
你觉得CPU没什么卵用,是因为瓶颈在内存带宽,70B的模型是43G,上限就是你的内存带宽/43G,你猜人家CPU跑为 ...

拜托看贴看全。。。。。这是对比9800x3d和9600x,说的是3d缓存这个工况没卵用
发表于 2025-2-27 21:43 | 显示全部楼层
本帖最后由 testmepro 于 2025-2-27 21:55 编辑
秦南瓜 发表于 2025-2-27 20:00
主要还是傻瓜

llamacpp 速度有差异不?


我记着我好像说过..此条作废
 楼主| 发表于 2025-2-27 21:43 | 显示全部楼层

10900X ES QSTZ 全核心4.9
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-21 23:47 , Processed in 0.024320 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表