找回密码
 加入我们
搜索
      
查看: 2687|回复: 27

[显卡] DS部署的问题

[复制链接]
发表于 2025-2-9 12:35 | 显示全部楼层 |阅读模式
本地部署DS 现在是14b Q8  不够用

如果要对14B进行修改训练需要用到什么 比如投喂数据后 怎么才能让他输出我需要的数据 和格式

如果要扩大到70b的话需要什么卡

自己部署的API口怎么给别人用呢?
发表于 2025-2-9 12:39 来自手机 | 显示全部楼层
网上搜一下一大把
发表于 2025-2-9 12:42 | 显示全部楼层
看网上说。32B要用到7900xt之类的,要上到70B估计单张显卡够呛。
发表于 2025-2-9 15:37 | 显示全部楼层
70b可以买一张魔改4090 48G
发表于 2025-2-9 16:01 | 显示全部楼层
本帖最后由 gyc 于 2025-2-9 16:03 编辑

1. 如果是训练,需要资源比推理要多,因此建议按推理的3~4倍算,也就是14B X2  X4约等于112GB 显存 ,按这个需求进行配置。具体多少有些查询工具可以看, 但训练都是用原始精度,量化才是减少精度。这是两个过程。

2. 共享API就是部署一个Web 服务,你可以自己编写一个, 也可以用第三方的工具(前提支持,不同运行工具支持模型类型有限,如果不支持就需要自己扩展)。   
后续就是 部署反向代理 了。具体参考网络教程。

3. 需要的数据格式,你可以线试试,目前一写模型支持JSON或者Markdown输出。
发表于 2025-2-9 16:31 | 显示全部楼层
局域网很简单,改几个配置就行;web服务得你有固定ip。
发表于 2025-2-9 17:53 | 显示全部楼层
你们部署这个快吗?我用LM Studio,下载一个14B模型,只有几十KB/S,这什么情况》?
发表于 2025-2-9 18:32 | 显示全部楼层
元首的动物园 发表于 2025-2-9 17:53
你们部署这个快吗?我用LM Studio,下载一个14B模型,只有几十KB/S,这什么情况》? ...

用LM Studio下载比较慢,直接在其他网站上下载好再用LM Studio加载
 楼主| 发表于 2025-2-9 19:49 | 显示全部楼层
元首的动物园 发表于 2025-2-9 17:53
你们部署这个快吗?我用LM Studio,下载一个14B模型,只有几十KB/S,这什么情况》? ...

我们用的ollama部署 14B 8Q 可以找其他地方下
LM下 和ollama下回比较慢
发表于 2025-2-10 09:35 | 显示全部楼层
7900xtx,64G内存,开始用ollama跑ds r1 32b,超级慢,期间显卡计算占用100%,但显存占用很少。
后升级驱动到最新25.1.1,用amd推荐的LM Studio部署DeepSeek-R1-Distill-Qwen-32B-Q5,平均也只有5-10tokens/s,看性能,显存拉满,但显卡计算只占用40%左右,不知哪里没搞对路。
发表于 2025-2-10 09:52 | 显示全部楼层
finetune不用本地搞,用colab或者租gpu去搞,因为你不会每天都跑训练但可能每天都用到推理
发表于 2025-2-10 09:52 | 显示全部楼层
zhgna 发表于 2025-2-10 09:35
7900xtx,64G内存,开始用ollama跑ds r1 32b,超级慢,期间显卡计算占用100%,但显存占用很少。
后升级驱动 ...

windows 也要占显存的, 已经爆了
发表于 2025-2-10 09:58 | 显示全部楼层
这么看的话之后买AI MAX+ 395的主机可以搞一搞70b?
发表于 2025-2-10 10:01 | 显示全部楼层
xy. 发表于 2025-2-10 09:52
windows 也要占显存的, 已经爆了

应该不是这个问题。我把gpu offload拉低一点,显存占用21g左右,显卡计算利用率就下降到20%左右了,ds跑起来就更慢了。
发表于 2025-2-10 10:06 | 显示全部楼层
zhgna 发表于 2025-2-10 09:35
7900xtx,64G内存,开始用ollama跑ds r1 32b,超级慢,期间显卡计算占用100%,但显存占用很少。
后升级驱动 ...

gpu卸载里拉满,去掉载入内存,正常xtx可以到27token/s。
发表于 2025-2-10 10:08 | 显示全部楼层
zhgna 发表于 2025-2-10 10:01
应该不是这个问题。我把gpu offload拉低一点,显存占用21g左右,显卡计算利用率就下降到20%左右了,ds跑 ...

你还拉低?64给我拉满啊
发表于 2025-2-10 10:09 | 显示全部楼层
个人就不要妄想大模型的部署了。去用官方api不好吗?
发表于 2025-2-10 10:41 | 显示全部楼层
winklejude 发表于 2025-2-10 10:06
gpu卸载里拉满,去掉载入内存,正常xtx可以到27token/s。

谢谢!
LM Studio这样设置对吗?去掉keep model in memory,显卡利用率有提升, 但模型还是慢,也只有10 tokens,主要是Processing Prompt过程比较长。

103550.jpg

103333.jpg
发表于 2025-2-10 10:42 | 显示全部楼层
winklejude 发表于 2025-2-10 10:08
你还拉低?64给我拉满啊

上面有个同学说可能显存拉爆了,所以拉低一点试试。
发表于 2025-2-10 11:43 | 显示全部楼层
zhgna 发表于 2025-2-10 10:41
谢谢!
LM Studio这样设置对吗?去掉keep model in memory,显卡利用率有提升, 但模型还是慢,也只有10  ...

还是低,fast attension打开看看
发表于 2025-2-10 11:47 | 显示全部楼层
scorpio33 发表于 2025-2-9 15:37
70b可以买一张魔改4090 48G

远远不够啊
发表于 2025-2-10 11:48 | 显示全部楼层
超级慢就是爆显存了。显示器插核显上,上网禁用图形加速
发表于 2025-2-10 12:17 | 显示全部楼层
winklejude 发表于 2025-2-10 11:43
还是低,fast attension打开看看

fast attension试过了,没什么变化。
不过,刚又试了试ollama,不知怎么回事,突然变快了,高的有20多tokens,一般也有十几,显卡性能调用也变正常了。ollama部署的ds已经有段时间了,一直很慢,难道是升级了显卡驱动缘故?

111335.jpg

111356.jpg
发表于 2025-2-10 12:37 | 显示全部楼层
zhgna 发表于 2025-2-10 12:17
fast attension试过了,没什么变化。
不过,刚又试了试ollama,不知怎么回事,突然变快了,高的有20多tok ...

However, users may experience reduced performance with LM Studio on AMD Ryzen AI and Radeon systems. AMD is aware of this issue and is actively working on solutions in future driver updates.
The reduced performance of LM Studio on AMD Ryzen AI and Radeon products is still a concern. AMD is dedicating resources to address and fix this limitation in upcoming driver releases.
25.1.1应该是优化了ollama但是LM Studio有问题
发表于 2025-2-10 12:45 | 显示全部楼层
pcboy112 发表于 2025-2-10 12:37
However, users may experience reduced performance with LM Studio on AMD Ryzen AI and Radeon system ...

原来如此,谢谢提醒!

LM Studio还是下了amd推荐的0.3.9 with AMD RyzenAI
发表于 2025-2-10 14:22 | 显示全部楼层
zhgna 发表于 2025-2-10 12:45
原来如此,谢谢提醒!

LM Studio还是下了amd推荐的0.3.9 with AMD RyzenAI

我用lmstudio有27t
发表于 2025-2-10 16:58 | 显示全部楼层

我下的32B-Q5版本,我再下一个Q4的试试。不行就不管它了,反正ollama的已能正常使用。
发表于 2025-2-11 11:41 | 显示全部楼层
当前阶段个人用户部署训练还是太难
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-2-21 18:45 , Processed in 0.012733 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表