找回密码
 加入我们
搜索
      
查看: 2835|回复: 66

[显卡] 新手本地LLM折腾分享

[复制链接]
发表于 2025-2-13 10:46 | 显示全部楼层 |阅读模式
本帖最后由 秦南瓜 于 2025-2-13 10:50 编辑

前情提要 https://www.chiphell.com/thread-2669938-1-1.html

我先买了2080ti 22G *2 试试水,只玩推理,不考虑训练。
先前我有两个搜索不到答案的疑问,折腾下来都有了答案。
可能在专业人士看来是常识,作为小白真的搜不到也问不到,所以还是发出来吧,方便新手们

我目前就用了windows下ollama和lm studio两种相对而言比较傻瓜的方式玩,还没整其他环境。

1,deepseek r1 70b q4量化版本,模型大小40G,我寻思2080ti 22g*2,44g,能塞下吧?总不会溢出到内存了吧。
然后ollama跑的时候,还是会有一小部分溢出到内存,导致cpu也参与了7%的运算(如下图 ollama ps命令,不知道为啥模型这边显示46g。。正常情况下显存足够的话gpu是100%,cpu是0%)
这个情况下,双2080ti 22g,实际速度只有7.5token/s左右,到达不了tu102的满速10+ token/s,
不开nvlink的话,只有单卡gpu参与推理。插上nvlink桥,两张卡的gpu都能参与推理。但实际速度也没啥差别。都是7~8token/s。
肯定是不如张量并行,这个我接下来玩玩vllm再试试~
微信图片_20250213101000.jpg
然后再到lm studio里面,gpu offload拉满,ollama ps下看,cpu4%,gpu96%,相比ollama稍微好点。速度能到8.3token/s,但仍未达到RTX8000(TU102 48GvRam)的10+ token/s


2,我尝试了4090+2080ti 22g组合,解答了我先前一个疑问:
【是否可以不同型号的显卡插在同一个机器上一起跑LLM推理?如果可以的话,其中性能较低的卡是否会造成瓶颈?】
果然没便宜可占。。。4090+2080ti,就算推理在4090上跑,速度也仍然只有10token/s。这边速度卡着tu102的10token/s(24+22g比上面44g大了2g,模型就不溢出到内存了。速度也就正常了。草)说明瓶颈还是在更弱的卡上面。所以拿4090跑推理,插多张便宜2080ti当显存池的想法也破产了。更高级别的卡混在低级卡里面纯白搭
微信图片_20250213104114.jpg
微信截图_20250213104129.png
发表于 2025-2-13 10:54 | 显示全部楼层
所以最快的办法还是4090 48G,保证不要溢出到内存里即可;
便宜的下位替代还有W7900 48G
 楼主| 发表于 2025-2-13 10:58 | 显示全部楼层
本帖最后由 秦南瓜 于 2025-2-13 11:02 编辑
KimmyGLM 发表于 2025-2-13 10:54
所以最快的办法还是4090 48G,保证不要溢出到内存里即可;
便宜的下位替代还有W7900 48G ...


409048g确实可,但目前价格&性能平衡的比较好的应该是双3090方案,推理速度相比双4090弱了不到20%,价格就双4090或者409048G的30~40%

w7900我之前搜到一篇文章,那个老哥双w7900,但在prompt processing阶段。。。被4090啥的倍杀。性价比也还不错

https://blog.hjc.im/dual-w7900ds-llm-preliminary-experience.html
发表于 2025-2-13 11:01 | 显示全部楼层
秦南瓜 发表于 2025-2-13 10:58
409048g确实可,但目前价格&性能平衡的比较好的应该是双3090方案,推理速度相比双4090弱了不到20%,价格 ...

惨,显存方案跑LLM,目前哪家都不便宜,而便宜的方案一定是有代价的.....
还是当垃圾佬再研究CPU玩玩吧
 楼主| 发表于 2025-2-13 11:02 | 显示全部楼层
KimmyGLM 发表于 2025-2-13 11:01
惨,显存方案跑LLM,目前哪家都不便宜,而便宜的方案一定是有代价的.....
还是当垃圾佬再研究CPU玩玩吧 ...

我刚看了下文章,编辑了。text generation阶段w7900表现可以的,
发表于 2025-2-13 11:03 | 显示全部楼层
没在命令行看,在任务管理器看,不知道准不准
同样是32B,LM Studio全部放的进显存,3t/s左右
ollama不知道算不算溢出到内存,4t/s左右
下载途径不同,两个32B的模型应该不完全一样
还有LM Studio稍微调过一些设置,ollama默认设置

LM Studio

LM Studio

ollama

ollama

发表于 2025-2-13 11:08 | 显示全部楼层
拉长上下文肯定会溢出
但是默认的2048屁都干不了
聊两句就把之前的东西忘了
发表于 2025-2-13 11:09 | 显示全部楼层
这个有点高端了
 楼主| 发表于 2025-2-13 11:10 | 显示全部楼层
本帖最后由 秦南瓜 于 2025-2-13 11:11 编辑
agrant 发表于 2025-2-13 11:03
没在命令行看,在任务管理器看,不知道准不准
同样是32B,LM Studio全部放的进显存,3t/s左右
ollama不知道 ...


32B Q4量化 会吃21g显存,Q5量化会吃23G显存

你这个 3~4token/s太慢了,很显然是cpu在跑。。gpu只吃了显存,核心没怎么参与跑推理

A4000 16G显存玩14B性能表现会很好,虽然14b会笨不少,但32b也没聪明多少哈哈哈
 楼主| 发表于 2025-2-13 11:10 | 显示全部楼层
manwomans 发表于 2025-2-13 11:08
拉长上下文肯定会溢出
但是默认的2048屁都干不了
聊两句就把之前的东西忘了 ...

是的。。。还是得加卡!!!!
发表于 2025-2-13 11:18 来自手机 | 显示全部楼层
据说满血m4 max跑70b速度很快,毕竟带宽500多GB/s,价格3个W
发表于 2025-2-13 11:19 | 显示全部楼层
秦南瓜 发表于 2025-2-13 11:10
32B Q4量化 会吃21g显存,Q5量化会吃23G显存

你这个 3~4token/s太慢了,很显然是cpu在跑。。gpu只吃了显 ...

嗯嗯,试试向上够不够得着跑32B,仅仅能跑,但是太慢,估计只能退一步跑14B了
图个折腾
 楼主| 发表于 2025-2-13 11:21 | 显示全部楼层
agrant 发表于 2025-2-13 11:19
嗯嗯,试试向上够不够得着跑32B,仅仅能跑,但是太慢,估计只能退一步跑14B了
图个折腾 ...

折腾才是乐趣,越狱模型花样不少的
发表于 2025-2-13 11:22 | 显示全部楼层
2080ti 22G *2 走vLLM不知道有没有机会不爆显存,如果能实现张量并行,也许能突破10t/s
 楼主| 发表于 2025-2-13 11:23 | 显示全部楼层
威廉第三 发表于 2025-2-13 11:22
2080ti 22G *2 走vLLM不知道有没有机会不爆显存,如果能实现张量并行,也许能突破10t/s ...

可能有机会。。。待我再摸索摸索。
张量并行两张都跑满那必然是远超10t/s
 楼主| 发表于 2025-2-13 11:25 | 显示全部楼层
港城钢铁侠 发表于 2025-2-13 11:18
据说满血m4 max跑70b速度很快,毕竟带宽500多GB/s,价格3个W

下一步换双3090了。四分之一价格达到17token/s,自己玩玩嘎嘎够了
发表于 2025-2-13 11:29 来自手机 | 显示全部楼层
秦南瓜 发表于 2025-2-13 11:25
下一步换双3090了。四分之一价格达到17token/s,自己玩玩嘎嘎够了

别忘了功耗也起飞了,说实话,真要自己部署并且7*24小时开着我肯定选苹果
 楼主| 发表于 2025-2-13 11:30 | 显示全部楼层
港城钢铁侠 发表于 2025-2-13 11:29
别忘了功耗也起飞了,说实话,真要自己部署并且7*24小时开着我肯定选苹果 ...

功耗问题不大。不太在意。。

家里空调365*24的,电脑洒洒水啦
发表于 2025-2-13 11:46 来自手机 | 显示全部楼层
秦南瓜 发表于 2025-2-13 11:30
功耗问题不大。不太在意。。

家里空调365*24的,电脑洒洒水啦

活捉大土豪。正常家里这两个设备的7*24开机的话电费差距每年几千块了
发表于 2025-2-13 11:55 | 显示全部楼层
训练的代码难度高么,我们研发说要自己训练,不知道是不是忽悠老板,拖。
训练的硬件显存就翻好几倍,给硬件的找事啊
 楼主| 发表于 2025-2-13 11:56 来自手机 | 显示全部楼层
nagashinn 发表于 2025-2-13 11:55
训练的代码难度高么,我们研发说要自己训练,不知道是不是忽悠老板,拖。
训练的硬件显存就翻好几倍,给硬 ...

企业业务训练需求的话。租云算力呗。搞硬件实在是不划算
发表于 2025-2-13 11:59 | 显示全部楼层
秦南瓜 发表于 2025-2-13 11:56
企业业务训练需求的话。租云算力呗。搞硬件实在是不划算

我现在是质疑研发的能力啊
发表于 2025-2-13 12:13 | 显示全部楼层
港城钢铁侠 发表于 2025-2-13 11:18
据说满血m4 max跑70b速度很快,毕竟带宽500多GB/s,价格3个W

快个鸡毛,最多也就10t/s的水平

发表于 2025-2-13 12:44 来自手机 | 显示全部楼层
uprit 发表于 2025-2-13 12:13
快个鸡毛,最多也就10t/s的水平

【便携式70b级本地独立AI时代的到来-128G 满血M4Max Macbook-穿越必备-哔哩哔哩】 https://b23.tv/g86ffzQ
B站up自己测的20Token/s怎么说?
 楼主| 发表于 2025-2-13 12:47 | 显示全部楼层
港城钢铁侠 发表于 2025-2-13 12:44
【便携式70b级本地独立AI时代的到来-128G 满血M4Max Macbook-穿越必备-哔哩哔哩】 https://b23.tv/g86ffz ...


卧槽。能到20t/s?!!!心动了
 楼主| 发表于 2025-2-13 12:53 | 显示全部楼层
港城钢铁侠 发表于 2025-2-13 12:44
【便携式70b级本地独立AI时代的到来-128G 满血M4Max Macbook-穿越必备-哔哩哔哩】 https://b23.tv/g86ffz ...

Q8量化6.76token/s
Q4量化10token/s

微信图片_20250213125221.jpg 微信图片_20250213125225.jpg
发表于 2025-2-13 12:57 | 显示全部楼层
港城钢铁侠 发表于 2025-2-13 12:44
【便携式70b级本地独立AI时代的到来-128G 满血M4Max Macbook-穿越必备-哔哩哔哩】 https://b23.tv/g86ffz ...

除非这个up截个图。俺看到的满血M4max跑32B也才约22t/s,70B模型大一倍,不太可能到20t/s。

发表于 2025-2-13 12:57 | 显示全部楼层
这么折腾,不如去腾讯云注册一个用户,花很少的钱就能跑满血的deepseek r1
 楼主| 发表于 2025-2-13 12:58 | 显示全部楼层
dikuf001 发表于 2025-2-13 12:57
这么折腾,不如去腾讯云注册一个用户,花很少的钱就能跑满血的deepseek r1


越狱模型,涩涩
发表于 2025-2-13 13:00 来自手机 | 显示全部楼层
秦南瓜 发表于 2025-2-13 12:53
Q8量化6.76token/s
Q4量化10token/s

看来就是10t/s了,那个Up主乱报数据了。不过10t/s个人用也还行了
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-2-21 18:46 , Processed in 0.031394 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表