新手本地LLM折腾分享

港城钢铁侠 · 发表于 2025-2-13 13:01

uprit 发表于 2025-2-13 12:57
除非这个up截个图。俺看到的满血M4max跑32B也才约22t/s，70B模型大一倍，不太可能到20t/s。

...

确实是10，楼主问了闲鱼卖家。。。看来B站Up主乱说了

秦南瓜 · 发表于 2025-2-13 13:01

港城钢铁侠发表于 2025-2-13 13:00
看来就是10t/s了，那个Up主乱报数据了。不过10t/s个人用也还行了

强就强在便携了。这玩意属于有需求就是质变

港城钢铁侠 · 发表于 2025-2-13 13:03

秦南瓜发表于 2025-2-13 13:01
强就强在便携了。这玩意属于有需求就是质变

等一波M4 ultra mac studio看看内存带宽有惊喜

秦南瓜 · 发表于 2025-2-13 13:05

港城钢铁侠发表于 2025-2-13 13:03
等一波M4 ultra mac studio看看内存带宽有惊喜

容量带宽起飞必然有惊喜。就是价格感人。。。三路四路4090 48G的开销了

ScjMitsui · 发表于 2025-2-13 13:09

nagashinn 发表于 2025-2-13 11:55
训练的代码难度高么，我们研发说要自己训练，不知道是不是忽悠老板，拖。
训练的硬件显存就翻好几倍，给硬 ...

几位数预算啊就想训练。。

Oxyer · 发表于 2025-2-13 13:19

不知道楼上的各位有没有这个感觉,那就是ollama跑比LM跑总感觉速度要快一丢丢

秦南瓜 · 发表于 2025-2-13 13:25

Oxyer 发表于 2025-2-13 13:19
不知道楼上的各位有没有这个感觉,那就是ollama跑比LM跑总感觉速度要快一丢丢 ...

额，为啥？这玩意还有快乐表的嘛。。。

Oxyer · 发表于 2025-2-13 13:46

秦南瓜发表于 2025-2-13 13:25
额，为啥？这玩意还有快乐表的嘛。。。

不知道,我自己ollama和LLM分别跑32b的模型就是ollama快...

秦南瓜 · 发表于 2025-2-13 13:48

Oxyer 发表于 2025-2-13 13:46
不知道,我自己ollama和LLM分别跑32b的模型就是ollama快...

显示速度都一样，体感有差别？还是说实际跑的速度就不一样的。。

Oxyer · 发表于 2025-2-13 13:48

秦南瓜发表于 2025-2-13 13:48
显示速度都一样，体感有差别？还是说实际跑的速度就不一样的。。

实际跑的速度能明显感觉出来

秦南瓜 · 发表于 2025-2-13 13:50

Oxyer 发表于 2025-2-13 13:48
实际跑的速度能明显感觉出来

你说的llm是lm studio吗，应该是设置问题

Oxyer · 发表于 2025-2-13 13:55

秦南瓜发表于 2025-2-13 13:50
你说的llm是lm studio吗，应该是设置问题

是的

秦南瓜 · 发表于 2025-2-13 13:58

Oxyer 发表于 2025-2-13 13:55
是的

lm studio上下文你设置多少，这玩意设置大的话，显存占用很爆炸的，会影响速度，还有就是gpu offload记得拉满

Oxyer · 发表于 2025-2-13 14:01

秦南瓜发表于 2025-2-13 13:58
lm studio上下文你设置多少，这玩意设置大的话，显存占用很爆炸的，会影响速度，还有就是gpu offload记得 ...

4096默认值,温度0.6-0.8,其他不动

秦南瓜 · 发表于 2025-2-13 14:02

Oxyer 发表于 2025-2-13 14:01
4096默认值,温度0.6-0.8,其他不动

设置差异了。 ollama我下载下来就没整webui设置，全默认用。。

Oxyer · 发表于 2025-2-13 14:05

秦南瓜发表于 2025-2-13 14:02
设置差异了。 ollama我下载下来就没整webui设置，全默认用。。

这么说,也有可能..

21PENNY · 发表于 2025-2-13 15:59

“说明瓶颈还是在更弱的卡上面。所以拿4090跑推理，插多张便宜2080ti当显存池的想法也破产了。更高级别的卡混在低级卡里面纯白搭”
前几天搜了篇文章看：
https://blog.csdn.net/qq_29788741/article/details/135411259

没有多卡互联DMA P2P的话，推理效率也起不来，不同卡的显存之间数据搬运总是要有CPU去参与cudaMemcpy（组织数据）。Geforce系列，最后支持PCIe P2P的是10系，个人测过两张1060和两张1080，在intel desktop测过300系、400系、500系、600系不支持，AMD desktop测过x300、x400、x500支持，测过PCIe switch PEX8747支持；而最后支持nvlink的是30系。

秦南瓜 · 发表于 2025-2-13 16:10

21PENNY 发表于 2025-2-13 15:59
“说明瓶颈还是在更弱的卡上面。所以拿4090跑推理，插多张便宜2080ti当显存池的想法也破产了。更高级别的卡 ...

但是我两张2080ti nvlink并没有啥提升。。。不过此时瓶颈应该是因为爆了显存。
待我买两张3090+nvlink再测

uprit · 发表于 2025-2-13 16:21

Oxyer 发表于 2025-2-13 13:46
不知道,我自己ollama和LLM分别跑32b的模型就是ollama快...

就是上下文的影响。上下文越长，显存占用越大，推理速度越慢。ollama默认只有2k上下文。

liolio · 发表于 2025-2-13 16:25

不知道苏妈吹的strrixhalo+64g/128g能跑70b实际速度如何。。。。。。

li77leprince · 发表于 2025-2-13 16:26

支持土豪楼主的探索精神！最近也在想弄两张魔改4090 48GB本地跑70B，关注楼主的后续动态~

秦南瓜 · 发表于 2025-2-13 16:30

liolio 发表于 2025-2-13 16:25
不知道苏妈吹的strrixhalo+64g/128g能跑70b实际速度如何。。。。。。

期待评测，近期解禁

momoka · 发表于 2025-2-13 16:31

我不懂，只能问它自己了。。。

根据您提供的硬件配置（双2080 Ti 22GB显存，总44GB显存），运行40G的DeepSeek-R1-70B-Q4量化模型需要注意以下几点：

1. 模型显存占用估算
参数存储：Q4量化后参数体积约 35-40GB（700亿参数 × 4bit ≈ 35GB）。
推理显存需求：除了参数本身，还需为以下内容预留空间：
中间激活值（尤其长序列输入时可能占用10-20GB）
框架开销（如PyTorch的上下文管理、缓存等）
结论：
单卡22GB显存无法加载，但通过双卡模型并行（如device_map="auto"或手动分片），44GB显存理论上可以容纳模型参数，但需严格控制批次大小（batch_size=1）和序列长度（如512 tokens以内）。

2. 关键配置建议
框架选择：使用支持多卡并行的库：
# Hugging Face Transformers + Accelerate
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-R1-70B-Q4", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-R1-70B-Q4")
优化策略：
启用Flash Attention：减少中间激活值占用。
限制输入长度：如max_length=512。
关闭梯度计算：推理时设置torch.no_grad()。
3. 溢出风险与应对
显存不足的表现：若显存超限，框架（如PyTorch）会尝试将部分数据交换到内存，导致推理速度大幅下降（10倍以上延迟）。
监控工具：
nvidia-smi # 实时查看显存占用
watch -n 1 "nvidia-smi | grep -A 1 Processes" # 每秒刷新显存使用
4. 性能预期
推理速度：双2080 Ti预计生成速度约 3-5 tokens/秒（取决于序列长度）。
对比建议：若需更高吞吐量，可考虑云端A100/H100实例（但成本显著增加）。
总结
可行但需谨慎配置：您的双2080 Ti 44GB显存可以运行该模型，但需通过多卡并行、严格控制输入长度和批次大小来避免显存溢出。建议在实际部署前进行小规模测试，逐步调整参数以平衡显存占用与性能。

秦南瓜 · 发表于 2025-2-13 16:32

li77leprince 发表于 2025-2-13 16:26
支持土豪楼主的探索精神！最近也在想弄两张魔改4090 48GB本地跑70B，关注楼主的后续动态~ ...

不是土豪哈。。
双4090 48相当可以，96G应该能跑70B Q8

，昨天闲鱼问了一家实价20100，价格跌了3000了

秦南瓜 · 发表于 2025-2-13 16:33

momoka 发表于 2025-2-13 16:31
我不懂，只能问它自己了。。。

实测7~8token/s,
满速10token/s应该能做到，就是得牺牲上下文了

Oxyer · 发表于 2025-2-13 16:47

uprit 发表于 2025-2-13 16:21
就是上下文的影响。上下文越长，显存占用越大，推理速度越慢。ollama默认只有2k上下文。

...

原来如此,学到了,谢谢解答

21PENNY · 发表于 2025-2-13 16:56

秦南瓜发表于 2025-2-13 16:10
但是我两张2080ti nvlink并没有啥提升。。。不过此时瓶颈应该是因为爆了显存。
待我买两张3090+nvlink再 ...

嗯，确实应该是爆显存。搜了下，3090的nvlink带宽没有比2080提升很多。

Q: What is the GeForce RTX 3090 NVLink bandwidth?
A: The GeForce RTX 3090 features approximately 112.5 GB/s of NVIDIA’s latest graphics card interconnect, NVLink version three-point-zero (NVLink 3.0). It is designed for fast and efficient data transfers between multiple GPUs, greatly benefiting applications requiring high-performance computing power.

https://www.fibermall.com/blog/nvlink-compatible-cards.htm
https://huggingface.co/docs/transformers/main/perf_hardware
https://www.bilibili.com/opus/171312574558275122

要是像AMD Ryzen™ Al Max+ 395这种，核显够强，并且用四通道内存当显存，能在带宽和容量间取得一定均衡。

秦南瓜 · 发表于 2025-2-13 17:06

21PENNY 发表于 2025-2-13 16:56
嗯，确实应该是爆显存。搜了下，3090的nvlink带宽没有比2080提升很多。

Q: What is the GeForce RTX 309 ...

是的，值得期待，而且它具备真正的便携性和低功耗。

testmepro · 发表于 2025-2-13 17:19

记着ollama是串行推理.只使用所有显卡显存.gpu还是可着一个干.vllm 是张量并行可以跑满所有显卡显存和gpu

秦南瓜 · 发表于 2025-2-13 17:20

testmepro 发表于 2025-2-13 17:19
记着ollama是串行推理.只使用所有显卡显存.gpu还是可着一个干.vllm 是张量并行可以跑满所有显卡显存和gpu ...

是的。。新手嘛，先玩傻瓜的

账号		自动登录	找回密码
密码			加入我们

[显卡] 新手本地LLM折腾分享

浏览过的版块