DS部署的问题

kuram 发表于 2025-2-9 12:35

本地部署DS 现在是14b Q8不够用

如果要对14B进行修改训练需要用到什么比如投喂数据后怎么才能让他输出我需要的数据和格式

如果要扩大到70b的话需要什么卡

自己部署的API口怎么给别人用呢？

zhao137314 发表于 2025-2-9 12:39

网上搜一下一大把

ya836779931 发表于 2025-2-9 12:42

看网上说。32B要用到7900xt之类的，要上到70B估计单张显卡够呛。

scorpio33 发表于 2025-2-9 15:37

70b可以买一张魔改4090 48G

gyc 发表于 2025-2-9 16:01

本帖最后由 gyc 于 2025-2-9 16:03 编辑

1. 如果是训练，需要资源比推理要多，因此建议按推理的3~4倍算，也就是14B X2X4约等于112GB 显存，按这个需求进行配置。具体多少有些查询工具可以看，但训练都是用原始精度，量化才是减少精度。这是两个过程。

2. 共享API就是部署一个Web 服务，你可以自己编写一个，也可以用第三方的工具（前提支持，不同运行工具支持模型类型有限，如果不支持就需要自己扩展）。
后续就是部署反向代理了。具体参考网络教程。

3. 需要的数据格式，你可以线试试，目前一写模型支持JSON或者Markdown输出。

mkkkno1 发表于 2025-2-9 16:31

局域网很简单，改几个配置就行；web服务得你有固定ip。

元首的动物园 发表于 2025-2-9 17:53

你们部署这个快吗？我用LM Studio，下载一个14B模型，只有几十KB/S，这什么情况》？

davidking 发表于 2025-2-9 18:32

元首的动物园发表于 2025-2-9 17:53
你们部署这个快吗？我用LM Studio，下载一个14B模型，只有几十KB/S，这什么情况》？ ...

用LM Studio下载比较慢，直接在其他网站上下载好再用LM Studio加载

kuram 发表于 2025-2-9 19:49

元首的动物园发表于 2025-2-9 17:53
你们部署这个快吗？我用LM Studio，下载一个14B模型，只有几十KB/S，这什么情况》？ ...

我们用的ollama部署 14B 8Q 可以找其他地方下
LM下和ollama下回比较慢

zhgna 发表于 2025-2-10 09:35

7900xtx，64G内存，开始用ollama跑ds r1 32b，超级慢，期间显卡计算占用100%，但显存占用很少。
后升级驱动到最新25.1.1，用amd推荐的LM Studio部署DeepSeek-R1-Distill-Qwen-32B-Q5，平均也只有5-10tokens/s，看性能，显存拉满，但显卡计算只占用40%左右，不知哪里没搞对路。

chiyiangel 发表于 2025-2-10 09:52

finetune不用本地搞，用colab或者租gpu去搞，因为你不会每天都跑训练但可能每天都用到推理

xy. 发表于 2025-2-10 09:52

zhgna 发表于 2025-2-10 09:35
7900xtx，64G内存，开始用ollama跑ds r1 32b，超级慢，期间显卡计算占用100%，但显存占用很少。
后升级驱动 ...

windows 也要占显存的, 已经爆了

明镜止水 发表于 2025-2-10 09:58

这么看的话之后买AI MAX+ 395的主机可以搞一搞70b？

zhgna 发表于 2025-2-10 10:01

xy. 发表于 2025-2-10 09:52
windows 也要占显存的, 已经爆了

应该不是这个问题。我把gpu offload拉低一点，显存占用21g左右，显卡计算利用率就下降到20%左右了，ds跑起来就更慢了。

winklejude 发表于 2025-2-10 10:06

zhgna 发表于 2025-2-10 09:35
7900xtx，64G内存，开始用ollama跑ds r1 32b，超级慢，期间显卡计算占用100%，但显存占用很少。
后升级驱动 ...

gpu卸载里拉满，去掉载入内存，正常xtx可以到27token/s。

winklejude 发表于 2025-2-10 10:08

zhgna 发表于 2025-2-10 10:01
应该不是这个问题。我把gpu offload拉低一点，显存占用21g左右，显卡计算利用率就下降到20%左右了，ds跑 ...

你还拉低？64给我拉满啊

lz2906190 发表于 2025-2-10 10:09

个人就不要妄想大模型的部署了。去用官方api不好吗？

zhgna 发表于 2025-2-10 10:41

winklejude 发表于 2025-2-10 10:06
gpu卸载里拉满，去掉载入内存，正常xtx可以到27token/s。

谢谢！
LM Studio这样设置对吗？去掉keep model in memory，显卡利用率有提升，但模型还是慢，也只有10 tokens，主要是Processing Prompt过程比较长。

zhgna 发表于 2025-2-10 10:42

winklejude 发表于 2025-2-10 10:08
你还拉低？64给我拉满啊

上面有个同学说可能显存拉爆了，所以拉低一点试试。

winklejude 发表于 2025-2-10 11:43

zhgna 发表于 2025-2-10 10:41
谢谢！
LM Studio这样设置对吗？去掉keep model in memory，显卡利用率有提升，但模型还是慢，也只有10...

还是低，fast attension打开看看

SuperYoung 发表于 2025-2-10 11:47

scorpio33 发表于 2025-2-9 15:37
70b可以买一张魔改4090 48G

远远不够啊

nagashinn 发表于 2025-2-10 11:48

超级慢就是爆显存了。显示器插核显上，上网禁用图形加速

zhgna 发表于 2025-2-10 12:17

winklejude 发表于 2025-2-10 11:43
还是低，fast attension打开看看

fast attension试过了，没什么变化。
不过，刚又试了试ollama，不知怎么回事，突然变快了，高的有20多tokens，一般也有十几，显卡性能调用也变正常了。ollama部署的ds已经有段时间了，一直很慢，难道是升级了显卡驱动缘故？

pcboy112 发表于 2025-2-10 12:37

zhgna 发表于 2025-2-10 12:17
fast attension试过了，没什么变化。
不过，刚又试了试ollama，不知怎么回事，突然变快了，高的有20多tok ...

However, users may experience reduced performance with LM Studio on AMD Ryzen AI and Radeon systems. AMD is aware of this issue and is actively working on solutions in future driver updates.
The reduced performance of LM Studio on AMD Ryzen AI and Radeon products is still a concern. AMD is dedicating resources to address and fix this limitation in upcoming driver releases.
25.1.1应该是优化了ollama但是LM Studio有问题[偷笑]

zhgna 发表于 2025-2-10 12:45

pcboy112 发表于 2025-2-10 12:37
However, users may experience reduced performance with LM Studio on AMD Ryzen AI and Radeon system ...

原来如此，谢谢提醒！

LM Studio还是下了amd推荐的0.3.9 with AMD RyzenAI

winklejude 发表于 2025-2-10 14:22

zhgna 发表于 2025-2-10 12:45
原来如此，谢谢提醒！

LM Studio还是下了amd推荐的0.3.9 with AMD RyzenAI

我用lmstudio有27t

zhgna 发表于 2025-2-10 16:58

winklejude 发表于 2025-2-10 14:22
我用lmstudio有27t

我下的32B-Q5版本，我再下一个Q4的试试。不行就不管它了，反正ollama的已能正常使用。

yxxkz8 发表于 2025-2-11 11:41

当前阶段个人用户部署训练还是太难

页: [1]

Chiphell - 分享与交流用户体验's Archiver

DS部署的问题