秦南瓜 发表于 2025-2-27 19:45

新手本地LLM折腾分享 第二弹

本帖最后由 秦南瓜 于 2025-2-27 19:50 编辑

前情提要:https://www.chiphell.com/thread-2671875-1-1.html

俩2080ti很快就出掉了,因为我发现44G显存装不下70B Q4,实际推理速度就7~8token/s
这次搞了俩cpu方案和一个双4090(D)方案,看看效果[恶魔]




测试模型&问题:
ollama huihui_deepseek r170B Q4 43GB,32B Q4 20GB,14B Q4 9GB,
1,你是谁
2,人生十大建议


测试对象&数据:

1,9600x pbo+2006c12t 64G 6000c30 无显卡
文字生成时的cpu频率:5.5-5.55Ghz

70b
你是谁1.61 token/s
人生十大建议1.57 token/s

32b
你是谁3.37 token/s
人生十大建议3.27 token/s

14b
你是谁7.82 token/s
人生十大建议7.5 token/s


2,9800x3d pbo +200 8c16t 64G 6000c30 40 40 104 从这个测试可见,消费级x3d在这种工况下没啥卵用,甚至多出来的2c4t都没卵用
文字生成频率5.4-5.45

70b
你是谁1.61 token/s
人生十大建议1.57 token/s

32b
你是谁3.48 token/s
人生十大建议3.4 token/s

14b
你是谁7.77 token/s
人生十大建议7.53 token/s

3,9800x3d pbo +200 8c16t 64G 6000c28 36 36 36这个测试是对比不同时序,时序收紧确实能提升推理速度
文字生成时的cpu频率:5.4-5.45Ghz

70b
你是谁1.63 token/s
人生十大建议1.59 token/s

32b
你是谁3.50 token/s
人生十大建议3.41 token/s

14b
你是谁7.8 token/s
人生十大建议7.57 token/s

4,X299 4090+4090D 48G GDDR6X(PCIE3.0,4090D主卡推理,因为调换位置机箱塞不下[吐槽] )双卡显存OC+1500要速度还得是GPU[恶魔]

70b
你是谁 21.01 token/s
人生十大建议20.44 token/s

32b
你是谁43.03 token/s
人生十大建议42.54 token/s

14b
你是谁78.58 token/s
人生十大建议77.89 token/s



以上,仅供参考

SkyGZO 发表于 2025-2-27 19:47

写一下Q几吧,方便详细对比

秦南瓜 发表于 2025-2-27 19:50

SkyGZO 发表于 2025-2-27 19:47
写一下Q几吧,方便详细对比

更新了,都是Q4

YsHaNg 发表于 2025-2-27 19:56

要不换llama.cpp吧 ollama太拉了

os39000 发表于 2025-2-27 19:57

速度好快

秦南瓜 发表于 2025-2-27 20:00

YsHaNg 发表于 2025-2-27 19:56
要不换llama.cpp吧 ollama太拉了

主要还是傻瓜

llamacpp 速度有差异不?

YsHaNg 发表于 2025-2-27 20:06

秦南瓜 发表于 2025-2-27 12:00
主要还是傻瓜

llamacpp 速度有差异不?

有 llama.cpp实现fa3和fp16 kvcache更好 ollama从12月底到现在都在折腾新model engine加载器没工夫做底层优化 项目本身也是几个不太懂c的人开的坑 现在open webui社区都在尽量摆脱ollama 期待实现direct llama.cpp api

秦南瓜 发表于 2025-2-27 20:19

YsHaNg 发表于 2025-2-27 20:06
有 llama.cpp实现fa3和fp16 kvcache更好 ollama从12月底到现在都在折腾新model engine加载器没工夫做底层 ...

学习了,那。。lm studio咋样呢?

YsHaNg 发表于 2025-2-27 20:31

秦南瓜 发表于 2025-2-27 12:19
学习了,那。。lm studio咋样呢?

lm studio是个大前端设计 js的用户端程序 默认调用mlx 兼容llama.cpp runtime 对位的可以看一下https://github.com/CherryHQ/cherry-studio
我比较喜欢http+pwa的实现 再加上open webui生态好 docker一键拉全在服务器上 用户端有个浏览器就能用
当然追求生产部署开源后端推理框架都是草履虫 也就vllm transformers能看一些 等社区消化deepseek这5天的产出吧

秦南瓜 发表于 2025-2-27 20:33

YsHaNg 发表于 2025-2-27 20:31
lm studio是个大前端设计 js的用户端程序 默认调用mlx 兼容llama.cpp runtime 对位的可以看一下https://g ...

感谢大佬!我就等等整合包吧哈哈哈

longyuyan 发表于 2025-2-27 20:33

学习了,买不起显卡折腾

LNT 发表于 2025-2-27 20:56

双4090提升幅度很小,单个4090 48G在ollama下即可做到70b q4 19tokens/s

秦南瓜 发表于 2025-2-27 20:58

LNT 发表于 2025-2-27 20:56
双4090提升幅度很小,单个4090 48G在ollama下即可做到70b q4 19tokens/s

是的。就叠个显存。。嗯?那岂不是4090+3090也行??

LNT 发表于 2025-2-27 21:10

秦南瓜 发表于 2025-2-27 20:58
是的。就叠个显存。。嗯?那岂不是4090+3090也行??

双3090也有16个tokens/s...结合部署难度,主板需求,电源需求。。。还是单4090 48G吧。。。70b跑一下还剩3~4G的显存,一般的上下文也够了

enolc 发表于 2025-2-27 21:21

X299的CPU是啥?

DoubleWood 发表于 2025-2-27 21:22

你觉得CPU没什么卵用,是因为瓶颈在内存带宽,70B的模型是43G,上限就是你的内存带宽/43G,你猜人家CPU跑为啥要用至强、epyc,还要组双路?

秦南瓜 发表于 2025-2-27 21:43

DoubleWood 发表于 2025-2-27 21:22
你觉得CPU没什么卵用,是因为瓶颈在内存带宽,70B的模型是43G,上限就是你的内存带宽/43G,你猜人家CPU跑为 ...

拜托看贴看全。。。。。这是对比9800x3d和9600x,说的是3d缓存这个工况没卵用

testmepro 发表于 2025-2-27 21:43

本帖最后由 testmepro 于 2025-2-27 21:55 编辑

秦南瓜 发表于 2025-2-27 20:00
主要还是傻瓜

llamacpp 速度有差异不?

我记着我好像说过..此条作废

秦南瓜 发表于 2025-2-27 21:43

enolc 发表于 2025-2-27 21:21
X299的CPU是啥?

10900X ES QSTZ 全核心4.9
页: [1]
查看完整版本: 新手本地LLM折腾分享 第二弹