新手本地LLM折腾分享

秦南瓜 发表于 2025-2-13 10:46

本帖最后由秦南瓜于 2025-2-13 10:50 编辑

前情提要 https://www.chiphell.com/thread-2669938-1-1.html

我先买了2080ti 22G *2 试试水，只玩推理，不考虑训练。
先前我有两个搜索不到答案的疑问，折腾下来都有了答案。
可能在专业人士看来是常识，作为小白真的搜不到也问不到，所以还是发出来吧，方便新手们[恶魔]

我目前就用了windows下ollama和lm studio两种相对而言比较傻瓜的方式玩，还没整其他环境。

1，deepseek r1 70b q4量化版本，模型大小40G，我寻思2080ti 22g*2，44g，能塞下吧？总不会溢出到内存了吧。
然后ollama跑的时候，还是会有一小部分溢出到内存，导致cpu也参与了7%的运算（如下图 ollama ps命令，不知道为啥模型这边显示46g。。正常情况下显存足够的话gpu是100%，cpu是0%）
这个情况下，双2080ti 22g，实际速度只有7.5token/s左右，到达不了tu102的满速10+ token/s，
不开nvlink的话，只有单卡gpu参与推理。插上nvlink桥，两张卡的gpu都能参与推理。但实际速度也没啥差别。都是7~8token/s。
肯定是不如张量并行，这个我接下来玩玩vllm再试试~

然后再到lm studio里面，gpu offload拉满，ollama ps下看，cpu4%，gpu96%，相比ollama稍微好点。速度能到8.3token/s，但仍未达到RTX8000（TU102 48GvRam）的10+ token/s

2，我尝试了4090+2080ti 22g组合，解答了我先前一个疑问：
【是否可以不同型号的显卡插在同一个机器上一起跑LLM推理？如果可以的话，其中性能较低的卡是否会造成瓶颈？】
果然没便宜可占。。。4090+2080ti，就算推理在4090上跑，速度也仍然只有10token/s。这边速度卡着tu102的10token/s（24+22g比上面44g大了2g，模型就不溢出到内存了。速度也就正常了。草）说明瓶颈还是在更弱的卡上面。所以拿4090跑推理，插多张便宜2080ti当显存池的想法也破产了。更高级别的卡混在低级卡里面纯白搭
。

KimmyGLM 发表于 2025-2-13 10:54

所以最快的办法还是4090 48G，保证不要溢出到内存里即可；
便宜的下位替代还有W7900 48G

秦南瓜 发表于 2025-2-13 10:58

本帖最后由秦南瓜于 2025-2-13 11:02 编辑

KimmyGLM 发表于 2025-2-13 10:54
所以最快的办法还是4090 48G，保证不要溢出到内存里即可；
便宜的下位替代还有W7900 48G ...

409048g确实可，但目前价格&性能平衡的比较好的应该是双3090方案，推理速度相比双4090弱了不到20%，价格就双4090或者409048G的30~40%

w7900我之前搜到一篇文章，那个老哥双w7900，但在prompt processing阶段。。。被4090啥的倍杀。性价比也还不错

https://blog.hjc.im/dual-w7900ds-llm-preliminary-experience.html

KimmyGLM 发表于 2025-2-13 11:01

秦南瓜发表于 2025-2-13 10:58
409048g确实可，但目前价格&性能平衡的比较好的应该是双3090方案，推理速度相比双4090弱了不到20%，价格 ...

惨，显存方案跑LLM，目前哪家都不便宜，而便宜的方案一定是有代价的.....
还是当垃圾佬再研究CPU玩玩吧

秦南瓜 发表于 2025-2-13 11:02

KimmyGLM 发表于 2025-2-13 11:01
惨，显存方案跑LLM，目前哪家都不便宜，而便宜的方案一定是有代价的.....
还是当垃圾佬再研究CPU玩玩吧 ...

我刚看了下文章，编辑了。text generation阶段w7900表现可以的，

agrant 发表于 2025-2-13 11:03

没在命令行看，在任务管理器看，不知道准不准
同样是32B，LM Studio全部放的进显存，3t/s左右
ollama不知道算不算溢出到内存，4t/s左右
下载途径不同，两个32B的模型应该不完全一样
还有LM Studio稍微调过一些设置，ollama默认设置

manwomans 发表于 2025-2-13 11:08

拉长上下文肯定会溢出
但是默认的2048屁都干不了
聊两句就把之前的东西忘了

李吃吃 发表于 2025-2-13 11:09

这个有点高端了

秦南瓜 发表于 2025-2-13 11:10

本帖最后由秦南瓜于 2025-2-13 11:11 编辑

agrant 发表于 2025-2-13 11:03
没在命令行看，在任务管理器看，不知道准不准
同样是32B，LM Studio全部放的进显存，3t/s左右
ollama不知道 ...

32B Q4量化会吃21g显存，Q5量化会吃23G显存

你这个 3~4token/s太慢了，很显然是cpu在跑。。gpu只吃了显存，核心没怎么参与跑推理

A4000 16G显存玩14B性能表现会很好，虽然14b会笨不少，但32b也没聪明多少哈哈哈

秦南瓜 发表于 2025-2-13 11:10

manwomans 发表于 2025-2-13 11:08
拉长上下文肯定会溢出
但是默认的2048屁都干不了
聊两句就把之前的东西忘了 ...

是的。。。还是得加卡！！！！

港城钢铁侠 发表于 2025-2-13 11:18

据说满血m4 max跑70b速度很快，毕竟带宽500多GB/s[偷笑]，价格3个W

agrant 发表于 2025-2-13 11:19

秦南瓜发表于 2025-2-13 11:10
32B Q4量化会吃21g显存，Q5量化会吃23G显存

你这个 3~4token/s太慢了，很显然是cpu在跑。。gpu只吃了显 ...

嗯嗯，试试向上够不够得着跑32B，仅仅能跑，但是太慢，估计只能退一步跑14B了
图个折腾[傻笑]

秦南瓜 发表于 2025-2-13 11:21

agrant 发表于 2025-2-13 11:19
嗯嗯，试试向上够不够得着跑32B，仅仅能跑，但是太慢，估计只能退一步跑14B了
图个折腾 ...

折腾才是乐趣，越狱模型花样不少的

威廉第三 发表于 2025-2-13 11:22

2080ti 22G *2 走vLLM不知道有没有机会不爆显存，如果能实现张量并行，也许能突破10t/s

秦南瓜 发表于 2025-2-13 11:23

威廉第三发表于 2025-2-13 11:22
2080ti 22G *2 走vLLM不知道有没有机会不爆显存，如果能实现张量并行，也许能突破10t/s ...

可能有机会。。。待我再摸索摸索。
张量并行两张都跑满那必然是远超10t/s

秦南瓜 发表于 2025-2-13 11:25

港城钢铁侠发表于 2025-2-13 11:18
据说满血m4 max跑70b速度很快，毕竟带宽500多GB/s，价格3个W

[恶魔]下一步换双3090了。四分之一价格达到17token/s，自己玩玩嘎嘎够了

港城钢铁侠 发表于 2025-2-13 11:29

秦南瓜发表于 2025-2-13 11:25
下一步换双3090了。四分之一价格达到17token/s，自己玩玩嘎嘎够了

[偷笑]别忘了功耗也起飞了，说实话，真要自己部署并且7*24小时开着我肯定选苹果

秦南瓜 发表于 2025-2-13 11:30

港城钢铁侠发表于 2025-2-13 11:29
别忘了功耗也起飞了，说实话，真要自己部署并且7*24小时开着我肯定选苹果 ...

功耗问题不大。不太在意。。

家里空调365*24的，电脑洒洒水啦[恶魔]

港城钢铁侠 发表于 2025-2-13 11:46

秦南瓜发表于 2025-2-13 11:30
功耗问题不大。不太在意。。

家里空调365*24的，电脑洒洒水啦

[偷笑]活捉大土豪。正常家里这两个设备的7*24开机的话电费差距每年几千块了

nagashinn 发表于 2025-2-13 11:55

训练的代码难度高么，我们研发说要自己训练，不知道是不是忽悠老板，拖。
训练的硬件显存就翻好几倍，给硬件的找事啊

秦南瓜 发表于 2025-2-13 11:56

nagashinn 发表于 2025-2-13 11:55
训练的代码难度高么，我们研发说要自己训练，不知道是不是忽悠老板，拖。
训练的硬件显存就翻好几倍，给硬 ...

企业业务训练需求的话。租云算力呗。搞硬件实在是不划算

nagashinn 发表于 2025-2-13 11:59

秦南瓜发表于 2025-2-13 11:56
企业业务训练需求的话。租云算力呗。搞硬件实在是不划算

我现在是质疑研发的能力啊

uprit 发表于 2025-2-13 12:13

港城钢铁侠发表于 2025-2-13 11:18
据说满血m4 max跑70b速度很快，毕竟带宽500多GB/s，价格3个W

快个鸡毛，最多也就10t/s的水平

港城钢铁侠 发表于 2025-2-13 12:44

uprit 发表于 2025-2-13 12:13
快个鸡毛，最多也就10t/s的水平

【便携式70b级本地独立AI时代的到来-128G 满血M4Max Macbook-穿越必备-哔哩哔哩】 https://b23.tv/g86ffzQ
B站up自己测的20Token/s怎么说？

秦南瓜 发表于 2025-2-13 12:47

港城钢铁侠发表于 2025-2-13 12:44
【便携式70b级本地独立AI时代的到来-128G 满血M4Max Macbook-穿越必备-哔哩哔哩】 https://b23.tv/g86ffz ...

卧槽。能到20t/s？！！！心动了

秦南瓜 发表于 2025-2-13 12:53

港城钢铁侠发表于 2025-2-13 12:44
【便携式70b级本地独立AI时代的到来-128G 满血M4Max Macbook-穿越必备-哔哩哔哩】 https://b23.tv/g86ffz ...

Q8量化6.76token/s
Q4量化10token/s

uprit 发表于 2025-2-13 12:57

港城钢铁侠发表于 2025-2-13 12:44
【便携式70b级本地独立AI时代的到来-128G 满血M4Max Macbook-穿越必备-哔哩哔哩】 https://b23.tv/g86ffz ...

除非这个up截个图。俺看到的满血M4max跑32B也才约22t/s，70B模型大一倍，不太可能到20t/s。

dikuf001 发表于 2025-2-13 12:57

这么折腾，不如去腾讯云注册一个用户，花很少的钱就能跑满血的deepseek r1

秦南瓜 发表于 2025-2-13 12:58

dikuf001 发表于 2025-2-13 12:57
这么折腾，不如去腾讯云注册一个用户，花很少的钱就能跑满血的deepseek r1

越狱模型，涩涩

港城钢铁侠 发表于 2025-2-13 13:00

秦南瓜发表于 2025-2-13 12:53
Q8量化6.76token/s
Q4量化10token/s

看来就是10t/s了，那个Up主乱报数据了。不过10t/s个人用也还行了

页: [1] 2 3

Chiphell - 分享与交流用户体验's Archiver

新手本地LLM折腾分享