新手本地LLM折腾分享
本帖最后由 秦南瓜 于 2025-2-13 10:50 编辑前情提要 https://www.chiphell.com/thread-2669938-1-1.html
我先买了2080ti 22G *2 试试水,只玩推理,不考虑训练。
先前我有两个搜索不到答案的疑问,折腾下来都有了答案。
可能在专业人士看来是常识,作为小白真的搜不到也问不到,所以还是发出来吧,方便新手们[恶魔]
我目前就用了windows下ollama和lm studio两种相对而言比较傻瓜的方式玩,还没整其他环境。
1,deepseek r1 70b q4量化版本,模型大小40G,我寻思2080ti 22g*2,44g,能塞下吧?总不会溢出到内存了吧。
然后ollama跑的时候,还是会有一小部分溢出到内存,导致cpu也参与了7%的运算(如下图 ollama ps命令,不知道为啥模型这边显示46g。。正常情况下显存足够的话gpu是100%,cpu是0%)
这个情况下,双2080ti 22g,实际速度只有7.5token/s左右,到达不了tu102的满速10+ token/s,
不开nvlink的话,只有单卡gpu参与推理。插上nvlink桥,两张卡的gpu都能参与推理。但实际速度也没啥差别。都是7~8token/s。
肯定是不如张量并行,这个我接下来玩玩vllm再试试~
然后再到lm studio里面,gpu offload拉满,ollama ps下看,cpu4%,gpu96%,相比ollama稍微好点。速度能到8.3token/s,但仍未达到RTX8000(TU102 48GvRam)的10+ token/s
2,我尝试了4090+2080ti 22g组合,解答了我先前一个疑问:
【是否可以不同型号的显卡插在同一个机器上一起跑LLM推理?如果可以的话,其中性能较低的卡是否会造成瓶颈?】
果然没便宜可占。。。4090+2080ti,就算推理在4090上跑,速度也仍然只有10token/s。这边速度卡着tu102的10token/s(24+22g比上面44g大了2g,模型就不溢出到内存了。速度也就正常了。草)说明瓶颈还是在更弱的卡上面。所以拿4090跑推理,插多张便宜2080ti当显存池的想法也破产了。更高级别的卡混在低级卡里面纯白搭
。
所以最快的办法还是4090 48G,保证不要溢出到内存里即可;
便宜的下位替代还有W7900 48G 本帖最后由 秦南瓜 于 2025-2-13 11:02 编辑
KimmyGLM 发表于 2025-2-13 10:54
所以最快的办法还是4090 48G,保证不要溢出到内存里即可;
便宜的下位替代还有W7900 48G ...
409048g确实可,但目前价格&性能平衡的比较好的应该是双3090方案,推理速度相比双4090弱了不到20%,价格就双4090或者409048G的30~40%
w7900我之前搜到一篇文章,那个老哥双w7900,但在prompt processing阶段。。。被4090啥的倍杀。性价比也还不错
https://blog.hjc.im/dual-w7900ds-llm-preliminary-experience.html 秦南瓜 发表于 2025-2-13 10:58
409048g确实可,但目前价格&性能平衡的比较好的应该是双3090方案,推理速度相比双4090弱了不到20%,价格 ...
惨,显存方案跑LLM,目前哪家都不便宜,而便宜的方案一定是有代价的.....
还是当垃圾佬再研究CPU玩玩吧 KimmyGLM 发表于 2025-2-13 11:01
惨,显存方案跑LLM,目前哪家都不便宜,而便宜的方案一定是有代价的.....
还是当垃圾佬再研究CPU玩玩吧 ...
我刚看了下文章,编辑了。text generation阶段w7900表现可以的, 没在命令行看,在任务管理器看,不知道准不准
同样是32B,LM Studio全部放的进显存,3t/s左右
ollama不知道算不算溢出到内存,4t/s左右
下载途径不同,两个32B的模型应该不完全一样
还有LM Studio稍微调过一些设置,ollama默认设置
拉长上下文肯定会溢出
但是默认的2048屁都干不了
聊两句就把之前的东西忘了 这个有点高端了 本帖最后由 秦南瓜 于 2025-2-13 11:11 编辑
agrant 发表于 2025-2-13 11:03
没在命令行看,在任务管理器看,不知道准不准
同样是32B,LM Studio全部放的进显存,3t/s左右
ollama不知道 ...
32B Q4量化 会吃21g显存,Q5量化会吃23G显存
你这个 3~4token/s太慢了,很显然是cpu在跑。。gpu只吃了显存,核心没怎么参与跑推理
A4000 16G显存玩14B性能表现会很好,虽然14b会笨不少,但32b也没聪明多少哈哈哈 manwomans 发表于 2025-2-13 11:08
拉长上下文肯定会溢出
但是默认的2048屁都干不了
聊两句就把之前的东西忘了 ...
是的。。。还是得加卡!!!! 据说满血m4 max跑70b速度很快,毕竟带宽500多GB/s[偷笑],价格3个W 秦南瓜 发表于 2025-2-13 11:10
32B Q4量化 会吃21g显存,Q5量化会吃23G显存
你这个 3~4token/s太慢了,很显然是cpu在跑。。gpu只吃了显 ...
嗯嗯,试试向上够不够得着跑32B,仅仅能跑,但是太慢,估计只能退一步跑14B了
图个折腾[傻笑] agrant 发表于 2025-2-13 11:19
嗯嗯,试试向上够不够得着跑32B,仅仅能跑,但是太慢,估计只能退一步跑14B了
图个折腾 ...
折腾才是乐趣,越狱模型花样不少的 2080ti 22G *2 走vLLM不知道有没有机会不爆显存,如果能实现张量并行,也许能突破10t/s 威廉第三 发表于 2025-2-13 11:22
2080ti 22G *2 走vLLM不知道有没有机会不爆显存,如果能实现张量并行,也许能突破10t/s ...
可能有机会。。。待我再摸索摸索。
张量并行两张都跑满那必然是远超10t/s 港城钢铁侠 发表于 2025-2-13 11:18
据说满血m4 max跑70b速度很快,毕竟带宽500多GB/s,价格3个W
[恶魔]下一步换双3090了。四分之一价格达到17token/s,自己玩玩嘎嘎够了 秦南瓜 发表于 2025-2-13 11:25
下一步换双3090了。四分之一价格达到17token/s,自己玩玩嘎嘎够了
[偷笑]别忘了功耗也起飞了,说实话,真要自己部署并且7*24小时开着我肯定选苹果 港城钢铁侠 发表于 2025-2-13 11:29
别忘了功耗也起飞了,说实话,真要自己部署并且7*24小时开着我肯定选苹果 ...
功耗问题不大。不太在意。。
家里空调365*24的,电脑洒洒水啦[恶魔] 秦南瓜 发表于 2025-2-13 11:30
功耗问题不大。不太在意。。
家里空调365*24的,电脑洒洒水啦
[偷笑]活捉大土豪。正常家里这两个设备的7*24开机的话电费差距每年几千块了 训练的代码难度高么,我们研发说要自己训练,不知道是不是忽悠老板,拖。
训练的硬件显存就翻好几倍,给硬件的找事啊 nagashinn 发表于 2025-2-13 11:55
训练的代码难度高么,我们研发说要自己训练,不知道是不是忽悠老板,拖。
训练的硬件显存就翻好几倍,给硬 ...
企业业务训练需求的话。租云算力呗。搞硬件实在是不划算
秦南瓜 发表于 2025-2-13 11:56
企业业务训练需求的话。租云算力呗。搞硬件实在是不划算
我现在是质疑研发的能力啊 港城钢铁侠 发表于 2025-2-13 11:18
据说满血m4 max跑70b速度很快,毕竟带宽500多GB/s,价格3个W
快个鸡毛,最多也就10t/s的水平
uprit 发表于 2025-2-13 12:13
快个鸡毛,最多也就10t/s的水平
【便携式70b级本地独立AI时代的到来-128G 满血M4Max Macbook-穿越必备-哔哩哔哩】 https://b23.tv/g86ffzQ
B站up自己测的20Token/s怎么说? 港城钢铁侠 发表于 2025-2-13 12:44
【便携式70b级本地独立AI时代的到来-128G 满血M4Max Macbook-穿越必备-哔哩哔哩】 https://b23.tv/g86ffz ...
卧槽。能到20t/s?!!!心动了 港城钢铁侠 发表于 2025-2-13 12:44
【便携式70b级本地独立AI时代的到来-128G 满血M4Max Macbook-穿越必备-哔哩哔哩】 https://b23.tv/g86ffz ...
Q8量化6.76token/s
Q4量化10token/s
港城钢铁侠 发表于 2025-2-13 12:44
【便携式70b级本地独立AI时代的到来-128G 满血M4Max Macbook-穿越必备-哔哩哔哩】 https://b23.tv/g86ffz ...
除非这个up截个图。俺看到的满血M4max跑32B也才约22t/s,70B模型大一倍,不太可能到20t/s。
这么折腾,不如去腾讯云注册一个用户,花很少的钱就能跑满血的deepseek r1 dikuf001 发表于 2025-2-13 12:57
这么折腾,不如去腾讯云注册一个用户,花很少的钱就能跑满血的deepseek r1
越狱模型,涩涩 秦南瓜 发表于 2025-2-13 12:53
Q8量化6.76token/s
Q4量化10token/s
看来就是10t/s了,那个Up主乱报数据了。不过10t/s个人用也还行了