Deepseek局域网内部署需求
大佬们,咨询下,局域网内部署Deepseek R1 70B,搭配AnythingLLM小范围使用,目前打算先上4张4090显卡,是应该买服务器还是搞工作站?
工作站的话有什么板子是可以装进去4个4090?服务器的话有哪些型号推荐?谢谢! 本帖最后由 a010301208 于 2025-2-17 16:17 编辑
70B你整这么麻烦干什么
随便搞个V100的服务器就能跑了,一个月也就200块,而且可以选国外机房,你科学上网钱都省了,关键是算下来比你自己用电费便宜[偷笑]
建议从网上配个成熟的4090 4卡服务器 epyc 双路 ram大些 同问 服务器上挂了3张4090 内存128GB 等待部署70B 看了一下CPU不支持AMX指令集 和清华的Ktransformers无缘了 如四楼所说,考虑到AMX指令集,结合四卡需要的pcie,还是至强会好一些,但贵起来是真的贵……
我现在用的epyc 7663,单3090+3080 12G+内存硬扛70b有点于心不忍[流泪] 70B不是两张24g的卡就能跑起来了。。。[吃惊] 古明地觉 发表于 2025-2-17 16:19
70B不是两张24g的卡就能跑起来了。。。
是单机跑我看41.5GB就能跑了,多人用的话是不是需要加卡? 这么大投入只为了70B吗 TincoJ 发表于 2025-2-17 16:22
是单机跑我看41.5GB就能跑了,多人用的话是不是需要加卡?
你都跑70B这种智障模型了,跑个Q4就差不多了,要什么40G显存[偷笑] a010301208 发表于 2025-2-17 16:11
70B你整这么麻烦干什么
随便搞个V100的服务器就能跑了,一个月也就200块,而且可以选国外机房,你科学上网 ...
生产行业,不给联网主要是。。。 人用还是程序用?
程序用跟着其他机器云厂商走。人用,你们可真奢侈。 本帖最后由 a010301208 于 2025-2-17 16:36 编辑
TincoJ 发表于 2025-2-17 16:23
生产行业,不给联网主要是。。。
建议跑这个原版量化的,最低那个版本显存加内存一共200G不到就能跑了,显存占比越大上下文越多https://unsloth.ai/blog/deepseekr1-dynamic#running%20r1
那些70B 32B都不是原版,说白了就是用一个白痴模型去学习DS,但是因为本身很弱智,所以再怎么学还是弱智 半块RTX4090 玩转70B大语言模型
https://www.chiphell.com/thread-2621437-1-1.html
(出处: Chiphell - 分享与交流用户体验)
根据预算充裕程度把P100升级成Tesla V100,Quadro RTX 8000,或者NVIDIA L20 autobotsop 发表于 2025-2-17 16:12
同问 服务器上挂了3张4090 内存128GB 等待部署70B 看了一下CPU不支持AMX指令集 和清华的Ktransformers无缘 ...
不用AMX的v0.2也有8t/s awpak78 发表于 2025-2-17 16:27
半块RTX4090 玩转70B大语言模型
https://www.chiphell.com/thread-2621437-1-1.html
(出处: Chiphell - 分 ...
显卡预算大概10±1万 nagashinn 发表于 2025-2-17 16:26
人用还是程序用?
程序用跟着其他机器云厂商走。人用,你们可真奢侈。
大佬。。。是人用。。。[困惑] a010301208 发表于 2025-2-17 16:26
建议跑这个原版量化的https://unsloth.ai/blog/deepseekr1-dynamic#running%20r1
那些70B 32B都不是原版 ...
我看过这个,老板意思是可以继续加卡去跑这个671B,主要是担心扛不住内网的用户,token速度低。
所以想着先搞个本地的跑70B,智障就智障点,先确保局域网内的速度可用。
TincoJ 发表于 2025-2-17 16:38
我看过这个,老板意思是可以继续加卡去跑这个671B,主要是担心扛不住内网的用户,token速度低。
所以想着 ...
如果你用的是服务器主板的话,24G显存加8根32G内存就足够跑起来这个了,后面运行速度无非就是继续加显卡[偷笑] a010301208 发表于 2025-2-17 16:40
如果你用的是服务器主板的话,24G显存加8根32G内存就足够跑起来这个了,后面运行速度无非就是继续加显卡 ...
我用了一台淘汰的服务器上的虚拟机,给了50核,200GB内存,但是跑32b的速度都不算太理想,可能是CPU太老了,Intel(R) Xeon(R) Gold 6132 CPU @ 2.60GHz
1TB内存的新服务器也是有的,搞了一台192GB内存的虚拟机测试,效果只是改善一点点。 本帖最后由 a010301208 于 2025-2-17 16:56 编辑
TincoJ 发表于 2025-2-17 16:49
我用了一台淘汰的服务器上的虚拟机,给了50核,200GB内存,但是跑32b的速度都不算太理想,可能是CPU太老 ...
你是直接硬跑的吧,那肯定速度不对啊,参考这个https://github.com/kvcache-ai/ktransformers [偷笑]
还有就是我刚才发给你那个原版1.58bit的,你要是用什么llama那些蒸馏的硬跑肯定不行,那些模型本来就是高占用低智商
a010301208 发表于 2025-2-17 16:53
你是直接硬跑的吧,那肯定速度不对啊,参考这个https://github.com/kvcache-ai/ktransformers
还有就是 ...
膜拜大佬,先下班,明天啃一下。感谢感谢!!! 671B量化成最小的1.58那个模型,只有133GB大小,应该跑着每问题 搞70B干嘛,上32B的。R1这个70B基座模型是llama3,效果和qwen 32B半斤八两,一个偏英文,一个偏中文。32B的效果已经很好了,关键速度还快。
70B和32B没有显著区别,不太能用吧。
要上就上全量的671B autobotsop 发表于 2025-2-17 08:12
同问 服务器上挂了3张4090 内存128GB 等待部署70B 看了一下CPU不支持AMX指令集 和清华的Ktransformers无缘 ...
论文里描述的是0.3版 还在测试压根没放出来 问题很多 最新的就只有0.2.1 AnythingLLM 我觉得中文支持不行? TincoJ 发表于 2025-2-17 16:23
生产行业,不给联网主要是。。。
生产行业,还不联网,需要跑这种东西吗? 实在是想不通 a010301208 发表于 2025-2-17 16:11
70B你整这么麻烦干什么
随便搞个V100的服务器就能跑了,一个月也就200块,而且可以选国外机房,你科学上网 ...
哪家的云服务器这么便宜啊? 港城钢铁侠 发表于 2025-2-17 19:29
哪家的云服务器这么便宜啊?
这图是腾讯,目前随便买,注册4个号可以用1个月,其实别家也有,比如ucloud的新注册的话4090显卡服务器10块钱一天,别的16G显卡29.9块7天 最近这股风啊,得散了!搞得全民ds,什么14、32、70B,都是渣渣,倒是把买教程的人赚惨了。
671B fp16可是1.5TB+显存[偷笑]
页:
[1]
2