找回密码
 加入我们
搜索
      
楼主: 秦南瓜

[显卡] 新手本地LLM折腾分享

[复制链接]
发表于 2025-2-13 13:01 来自手机 | 显示全部楼层
uprit 发表于 2025-2-13 12:57
除非这个up截个图。俺看到的满血M4max跑32B也才约22t/s,70B模型大一倍,不太可能到20t/s。

...

确实是10,楼主问了闲鱼卖家。。。看来B站Up主乱说了
 楼主| 发表于 2025-2-13 13:01 | 显示全部楼层
港城钢铁侠 发表于 2025-2-13 13:00
看来就是10t/s了,那个Up主乱报数据了。不过10t/s个人用也还行了

强就强在便携了。这玩意属于有需求就是质变
发表于 2025-2-13 13:03 来自手机 | 显示全部楼层
秦南瓜 发表于 2025-2-13 13:01
强就强在便携了。这玩意属于有需求就是质变

等一波M4 ultra mac studio看看内存带宽有惊喜
 楼主| 发表于 2025-2-13 13:05 | 显示全部楼层
港城钢铁侠 发表于 2025-2-13 13:03
等一波M4 ultra mac studio看看内存带宽有惊喜

容量带宽起飞必然有惊喜。就是价格感人。。。三路四路4090 48G的开销了
发表于 2025-2-13 13:09 | 显示全部楼层
nagashinn 发表于 2025-2-13 11:55
训练的代码难度高么,我们研发说要自己训练,不知道是不是忽悠老板,拖。
训练的硬件显存就翻好几倍,给硬 ...

几位数预算啊就想训练。。
发表于 2025-2-13 13:19 | 显示全部楼层
不知道楼上的各位有没有这个感觉,那就是ollama跑比LM跑总感觉速度要快一丢丢
 楼主| 发表于 2025-2-13 13:25 | 显示全部楼层
Oxyer 发表于 2025-2-13 13:19
不知道楼上的各位有没有这个感觉,那就是ollama跑比LM跑总感觉速度要快一丢丢 ...

额,为啥?这玩意还有快乐表的嘛。。。
发表于 2025-2-13 13:46 | 显示全部楼层
秦南瓜 发表于 2025-2-13 13:25
额,为啥?这玩意还有快乐表的嘛。。。

不知道,我自己ollama和LLM分别跑32b的模型就是ollama快...
 楼主| 发表于 2025-2-13 13:48 | 显示全部楼层
Oxyer 发表于 2025-2-13 13:46
不知道,我自己ollama和LLM分别跑32b的模型就是ollama快...

显示速度都一样,体感有差别?还是说实际跑的速度就不一样的。。
发表于 2025-2-13 13:48 | 显示全部楼层
秦南瓜 发表于 2025-2-13 13:48
显示速度都一样,体感有差别?还是说实际跑的速度就不一样的。。

实际跑的速度能明显感觉出来
 楼主| 发表于 2025-2-13 13:50 | 显示全部楼层
Oxyer 发表于 2025-2-13 13:48
实际跑的速度能明显感觉出来

你说的llm是lm studio吗,应该是设置问题
发表于 2025-2-13 13:55 | 显示全部楼层
秦南瓜 发表于 2025-2-13 13:50
你说的llm是lm studio吗,应该是设置问题

是的                  
 楼主| 发表于 2025-2-13 13:58 | 显示全部楼层

lm studio上下文你设置多少,这玩意设置大的话,显存占用很爆炸的,会影响速度,还有就是gpu offload记得拉满
发表于 2025-2-13 14:01 | 显示全部楼层
秦南瓜 发表于 2025-2-13 13:58
lm studio上下文你设置多少,这玩意设置大的话,显存占用很爆炸的,会影响速度,还有就是gpu offload记得 ...

4096默认值,温度0.6-0.8,其他不动
 楼主| 发表于 2025-2-13 14:02 | 显示全部楼层
Oxyer 发表于 2025-2-13 14:01
4096默认值,温度0.6-0.8,其他不动

设置差异了。 ollama我下载下来就没整webui设置,全默认用。。
发表于 2025-2-13 14:05 | 显示全部楼层
秦南瓜 发表于 2025-2-13 14:02
设置差异了。 ollama我下载下来就没整webui设置,全默认用。。

这么说,也有可能..
发表于 2025-2-13 15:59 | 显示全部楼层
“说明瓶颈还是在更弱的卡上面。所以拿4090跑推理,插多张便宜2080ti当显存池的想法也破产了。更高级别的卡混在低级卡里面纯白搭”
前几天搜了篇文章看:
https://blog.csdn.net/qq_29788741/article/details/135411259

没有多卡互联DMA P2P的话,推理效率也起不来,不同卡的显存之间数据搬运总是要有CPU去参与cudaMemcpy(组织数据)。Geforce系列,最后支持PCIe P2P的是10系,个人测过两张1060和两张1080,在intel desktop测过300系、400系、500系、600系不支持,AMD desktop测过x300、x400、x500支持,测过PCIe switch PEX8747支持;而最后支持nvlink的是30系。
 楼主| 发表于 2025-2-13 16:10 | 显示全部楼层
21PENNY 发表于 2025-2-13 15:59
“说明瓶颈还是在更弱的卡上面。所以拿4090跑推理,插多张便宜2080ti当显存池的想法也破产了。更高级别的卡 ...

但是我两张2080ti nvlink并没有啥提升。。。不过此时瓶颈应该是因为爆了显存。
待我买两张3090+nvlink再测
发表于 2025-2-13 16:21 | 显示全部楼层
Oxyer 发表于 2025-2-13 13:46
不知道,我自己ollama和LLM分别跑32b的模型就是ollama快...

就是上下文的影响。上下文越长,显存占用越大,推理速度越慢。ollama默认只有2k上下文。

发表于 2025-2-13 16:25 | 显示全部楼层
不知道苏妈吹的strrixhalo+64g/128g能跑70b实际速度如何。。。。。。
发表于 2025-2-13 16:26 | 显示全部楼层
支持土豪楼主的探索精神!最近也在想弄两张魔改4090 48GB本地跑70B,关注楼主的后续动态~
 楼主| 发表于 2025-2-13 16:30 | 显示全部楼层
liolio 发表于 2025-2-13 16:25
不知道苏妈吹的strrixhalo+64g/128g能跑70b实际速度如何。。。。。。

期待评测,近期解禁
发表于 2025-2-13 16:31 | 显示全部楼层
我不懂,只能问它自己了。。。



根据您提供的硬件配置(双2080 Ti 22GB显存,总44GB显存),运行40G的DeepSeek-R1-70B-Q4量化模型需要注意以下几点:

1. 模型显存占用估算
参数存储:Q4量化后参数体积约 35-40GB(700亿参数 × 4bit ≈ 35GB)。
推理显存需求:除了参数本身,还需为以下内容预留空间:
中间激活值(尤其长序列输入时可能占用10-20GB)
框架开销(如PyTorch的上下文管理、缓存等)
结论:
单卡22GB显存无法加载,但通过双卡模型并行(如device_map="auto"或手动分片),44GB显存理论上可以容纳模型参数,但需严格控制批次大小(batch_size=1)和序列长度(如512 tokens以内)。

2. 关键配置建议
框架选择:使用支持多卡并行的库:
# Hugging Face Transformers + Accelerate
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-R1-70B-Q4", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-R1-70B-Q4")
优化策略:
启用Flash Attention:减少中间激活值占用。
限制输入长度:如max_length=512。
关闭梯度计算:推理时设置torch.no_grad()。
3. 溢出风险与应对
显存不足的表现:若显存超限,框架(如PyTorch)会尝试将部分数据交换到内存,导致推理速度大幅下降(10倍以上延迟)。
监控工具:
nvidia-smi  # 实时查看显存占用
watch -n 1 "nvidia-smi | grep -A 1 Processes"  # 每秒刷新显存使用
4. 性能预期
推理速度:双2080 Ti预计生成速度约 3-5 tokens/秒(取决于序列长度)。
对比建议:若需更高吞吐量,可考虑云端A100/H100实例(但成本显著增加)。
总结
可行但需谨慎配置:您的双2080 Ti 44GB显存可以运行该模型,但需通过多卡并行、严格控制输入长度和批次大小来避免显存溢出。建议在实际部署前进行小规模测试,逐步调整参数以平衡显存占用与性能。
 楼主| 发表于 2025-2-13 16:32 | 显示全部楼层
li77leprince 发表于 2025-2-13 16:26
支持土豪楼主的探索精神!最近也在想弄两张魔改4090 48GB本地跑70B,关注楼主的后续动态~ ...

不是土豪哈。。
双4090 48相当可以,96G应该能跑70B Q8,昨天闲鱼问了一家实价20100,价格跌了3000了
 楼主| 发表于 2025-2-13 16:33 | 显示全部楼层
momoka 发表于 2025-2-13 16:31
我不懂,只能问它自己了。。。

实测7~8token/s,
满速10token/s应该能做到,就是得牺牲上下文了
发表于 2025-2-13 16:47 | 显示全部楼层
uprit 发表于 2025-2-13 16:21
就是上下文的影响。上下文越长,显存占用越大,推理速度越慢。ollama默认只有2k上下文。

...

原来如此,学到了,谢谢解答
发表于 2025-2-13 16:56 | 显示全部楼层
秦南瓜 发表于 2025-2-13 16:10
但是我两张2080ti nvlink并没有啥提升。。。不过此时瓶颈应该是因为爆了显存。
待我买两张3090+nvlink再 ...

嗯,确实应该是爆显存。搜了下,3090的nvlink带宽没有比2080提升很多。

Q: What is the GeForce RTX 3090 NVLink bandwidth?
A: The GeForce RTX 3090 features approximately 112.5 GB/s of NVIDIA’s latest graphics card interconnect, NVLink version three-point-zero (NVLink 3.0). It is designed for fast and efficient data transfers between multiple GPUs, greatly benefiting applications requiring high-performance computing power.

https://www.fibermall.com/blog/nvlink-compatible-cards.htm
https://huggingface.co/docs/transformers/main/perf_hardware
https://www.bilibili.com/opus/171312574558275122

要是像AMD Ryzen™ Al Max+ 395这种,核显够强,并且用四通道内存当显存,能在带宽和容量间取得一定均衡。
 楼主| 发表于 2025-2-13 17:06 | 显示全部楼层
21PENNY 发表于 2025-2-13 16:56
嗯,确实应该是爆显存。搜了下,3090的nvlink带宽没有比2080提升很多。

Q: What is the GeForce RTX 309 ...

是的,值得期待,而且它具备真正的便携性和低功耗。
发表于 2025-2-13 17:19 | 显示全部楼层
记着ollama是串行推理.只使用所有显卡显存.gpu还是可着一个干.vllm 是张量并行可以跑满所有显卡显存和gpu
 楼主| 发表于 2025-2-13 17:20 | 显示全部楼层
testmepro 发表于 2025-2-13 17:19
记着ollama是串行推理.只使用所有显卡显存.gpu还是可着一个干.vllm 是张量并行可以跑满所有显卡显存和gpu ...

是的。。新手嘛,先玩傻瓜的
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-2-21 18:32 , Processed in 0.011480 second(s), 4 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表