秦南瓜 发表于 2025-2-13 10:46

新手本地LLM折腾分享

本帖最后由 秦南瓜 于 2025-2-13 10:50 编辑

前情提要 https://www.chiphell.com/thread-2669938-1-1.html

我先买了2080ti 22G *2 试试水,只玩推理,不考虑训练。
先前我有两个搜索不到答案的疑问,折腾下来都有了答案。
可能在专业人士看来是常识,作为小白真的搜不到也问不到,所以还是发出来吧,方便新手们[恶魔]

我目前就用了windows下ollama和lm studio两种相对而言比较傻瓜的方式玩,还没整其他环境。

1,deepseek r1 70b q4量化版本,模型大小40G,我寻思2080ti 22g*2,44g,能塞下吧?总不会溢出到内存了吧。
然后ollama跑的时候,还是会有一小部分溢出到内存,导致cpu也参与了7%的运算(如下图 ollama ps命令,不知道为啥模型这边显示46g。。正常情况下显存足够的话gpu是100%,cpu是0%)
这个情况下,双2080ti 22g,实际速度只有7.5token/s左右,到达不了tu102的满速10+ token/s,
不开nvlink的话,只有单卡gpu参与推理。插上nvlink桥,两张卡的gpu都能参与推理。但实际速度也没啥差别。都是7~8token/s。
肯定是不如张量并行,这个我接下来玩玩vllm再试试~

然后再到lm studio里面,gpu offload拉满,ollama ps下看,cpu4%,gpu96%,相比ollama稍微好点。速度能到8.3token/s,但仍未达到RTX8000(TU102 48GvRam)的10+ token/s


2,我尝试了4090+2080ti 22g组合,解答了我先前一个疑问:
【是否可以不同型号的显卡插在同一个机器上一起跑LLM推理?如果可以的话,其中性能较低的卡是否会造成瓶颈?】
果然没便宜可占。。。4090+2080ti,就算推理在4090上跑,速度也仍然只有10token/s。这边速度卡着tu102的10token/s(24+22g比上面44g大了2g,模型就不溢出到内存了。速度也就正常了。草)说明瓶颈还是在更弱的卡上面。所以拿4090跑推理,插多张便宜2080ti当显存池的想法也破产了。更高级别的卡混在低级卡里面纯白搭


KimmyGLM 发表于 2025-2-13 10:54

所以最快的办法还是4090 48G,保证不要溢出到内存里即可;
便宜的下位替代还有W7900 48G

秦南瓜 发表于 2025-2-13 10:58

本帖最后由 秦南瓜 于 2025-2-13 11:02 编辑

KimmyGLM 发表于 2025-2-13 10:54
所以最快的办法还是4090 48G,保证不要溢出到内存里即可;
便宜的下位替代还有W7900 48G ...

409048g确实可,但目前价格&性能平衡的比较好的应该是双3090方案,推理速度相比双4090弱了不到20%,价格就双4090或者409048G的30~40%

w7900我之前搜到一篇文章,那个老哥双w7900,但在prompt processing阶段。。。被4090啥的倍杀。性价比也还不错

https://blog.hjc.im/dual-w7900ds-llm-preliminary-experience.html

KimmyGLM 发表于 2025-2-13 11:01

秦南瓜 发表于 2025-2-13 10:58
409048g确实可,但目前价格&性能平衡的比较好的应该是双3090方案,推理速度相比双4090弱了不到20%,价格 ...

惨,显存方案跑LLM,目前哪家都不便宜,而便宜的方案一定是有代价的.....
还是当垃圾佬再研究CPU玩玩吧

秦南瓜 发表于 2025-2-13 11:02

KimmyGLM 发表于 2025-2-13 11:01
惨,显存方案跑LLM,目前哪家都不便宜,而便宜的方案一定是有代价的.....
还是当垃圾佬再研究CPU玩玩吧 ...

我刚看了下文章,编辑了。text generation阶段w7900表现可以的,

agrant 发表于 2025-2-13 11:03

没在命令行看,在任务管理器看,不知道准不准
同样是32B,LM Studio全部放的进显存,3t/s左右
ollama不知道算不算溢出到内存,4t/s左右
下载途径不同,两个32B的模型应该不完全一样
还有LM Studio稍微调过一些设置,ollama默认设置



manwomans 发表于 2025-2-13 11:08

拉长上下文肯定会溢出
但是默认的2048屁都干不了
聊两句就把之前的东西忘了

李吃吃 发表于 2025-2-13 11:09

这个有点高端了

秦南瓜 发表于 2025-2-13 11:10

本帖最后由 秦南瓜 于 2025-2-13 11:11 编辑

agrant 发表于 2025-2-13 11:03
没在命令行看,在任务管理器看,不知道准不准
同样是32B,LM Studio全部放的进显存,3t/s左右
ollama不知道 ...

32B Q4量化 会吃21g显存,Q5量化会吃23G显存

你这个 3~4token/s太慢了,很显然是cpu在跑。。gpu只吃了显存,核心没怎么参与跑推理

A4000 16G显存玩14B性能表现会很好,虽然14b会笨不少,但32b也没聪明多少哈哈哈

秦南瓜 发表于 2025-2-13 11:10

manwomans 发表于 2025-2-13 11:08
拉长上下文肯定会溢出
但是默认的2048屁都干不了
聊两句就把之前的东西忘了 ...

是的。。。还是得加卡!!!!

港城钢铁侠 发表于 2025-2-13 11:18

据说满血m4 max跑70b速度很快,毕竟带宽500多GB/s[偷笑],价格3个W

agrant 发表于 2025-2-13 11:19

秦南瓜 发表于 2025-2-13 11:10
32B Q4量化 会吃21g显存,Q5量化会吃23G显存

你这个 3~4token/s太慢了,很显然是cpu在跑。。gpu只吃了显 ...

嗯嗯,试试向上够不够得着跑32B,仅仅能跑,但是太慢,估计只能退一步跑14B了
图个折腾[傻笑]

秦南瓜 发表于 2025-2-13 11:21

agrant 发表于 2025-2-13 11:19
嗯嗯,试试向上够不够得着跑32B,仅仅能跑,但是太慢,估计只能退一步跑14B了
图个折腾 ...

折腾才是乐趣,越狱模型花样不少的

威廉第三 发表于 2025-2-13 11:22

2080ti 22G *2 走vLLM不知道有没有机会不爆显存,如果能实现张量并行,也许能突破10t/s

秦南瓜 发表于 2025-2-13 11:23

威廉第三 发表于 2025-2-13 11:22
2080ti 22G *2 走vLLM不知道有没有机会不爆显存,如果能实现张量并行,也许能突破10t/s ...

可能有机会。。。待我再摸索摸索。
张量并行两张都跑满那必然是远超10t/s

秦南瓜 发表于 2025-2-13 11:25

港城钢铁侠 发表于 2025-2-13 11:18
据说满血m4 max跑70b速度很快,毕竟带宽500多GB/s,价格3个W

[恶魔]下一步换双3090了。四分之一价格达到17token/s,自己玩玩嘎嘎够了

港城钢铁侠 发表于 2025-2-13 11:29

秦南瓜 发表于 2025-2-13 11:25
下一步换双3090了。四分之一价格达到17token/s,自己玩玩嘎嘎够了

[偷笑]别忘了功耗也起飞了,说实话,真要自己部署并且7*24小时开着我肯定选苹果

秦南瓜 发表于 2025-2-13 11:30

港城钢铁侠 发表于 2025-2-13 11:29
别忘了功耗也起飞了,说实话,真要自己部署并且7*24小时开着我肯定选苹果 ...

功耗问题不大。不太在意。。

家里空调365*24的,电脑洒洒水啦[恶魔]

港城钢铁侠 发表于 2025-2-13 11:46

秦南瓜 发表于 2025-2-13 11:30
功耗问题不大。不太在意。。

家里空调365*24的,电脑洒洒水啦

[偷笑]活捉大土豪。正常家里这两个设备的7*24开机的话电费差距每年几千块了

nagashinn 发表于 2025-2-13 11:55

训练的代码难度高么,我们研发说要自己训练,不知道是不是忽悠老板,拖。
训练的硬件显存就翻好几倍,给硬件的找事啊

秦南瓜 发表于 2025-2-13 11:56

nagashinn 发表于 2025-2-13 11:55
训练的代码难度高么,我们研发说要自己训练,不知道是不是忽悠老板,拖。
训练的硬件显存就翻好几倍,给硬 ...

企业业务训练需求的话。租云算力呗。搞硬件实在是不划算

nagashinn 发表于 2025-2-13 11:59

秦南瓜 发表于 2025-2-13 11:56
企业业务训练需求的话。租云算力呗。搞硬件实在是不划算

我现在是质疑研发的能力啊

uprit 发表于 2025-2-13 12:13

港城钢铁侠 发表于 2025-2-13 11:18
据说满血m4 max跑70b速度很快,毕竟带宽500多GB/s,价格3个W

快个鸡毛,最多也就10t/s的水平

港城钢铁侠 发表于 2025-2-13 12:44

uprit 发表于 2025-2-13 12:13
快个鸡毛,最多也就10t/s的水平

【便携式70b级本地独立AI时代的到来-128G 满血M4Max Macbook-穿越必备-哔哩哔哩】 https://b23.tv/g86ffzQ
B站up自己测的20Token/s怎么说?

秦南瓜 发表于 2025-2-13 12:47

港城钢铁侠 发表于 2025-2-13 12:44
【便携式70b级本地独立AI时代的到来-128G 满血M4Max Macbook-穿越必备-哔哩哔哩】 https://b23.tv/g86ffz ...

卧槽。能到20t/s?!!!心动了

秦南瓜 发表于 2025-2-13 12:53

港城钢铁侠 发表于 2025-2-13 12:44
【便携式70b级本地独立AI时代的到来-128G 满血M4Max Macbook-穿越必备-哔哩哔哩】 https://b23.tv/g86ffz ...

Q8量化6.76token/s
Q4量化10token/s

uprit 发表于 2025-2-13 12:57

港城钢铁侠 发表于 2025-2-13 12:44
【便携式70b级本地独立AI时代的到来-128G 满血M4Max Macbook-穿越必备-哔哩哔哩】 https://b23.tv/g86ffz ...

除非这个up截个图。俺看到的满血M4max跑32B也才约22t/s,70B模型大一倍,不太可能到20t/s。

dikuf001 发表于 2025-2-13 12:57

这么折腾,不如去腾讯云注册一个用户,花很少的钱就能跑满血的deepseek r1

秦南瓜 发表于 2025-2-13 12:58

dikuf001 发表于 2025-2-13 12:57
这么折腾,不如去腾讯云注册一个用户,花很少的钱就能跑满血的deepseek r1

越狱模型,涩涩

港城钢铁侠 发表于 2025-2-13 13:00

秦南瓜 发表于 2025-2-13 12:53
Q8量化6.76token/s
Q4量化10token/s

看来就是10t/s了,那个Up主乱报数据了。不过10t/s个人用也还行了
页: [1] 2 3
查看完整版本: 新手本地LLM折腾分享