关于deepseek的一些问题,请教各位大佬
客户叫帮装一台,70B的本地部署,具体配置如下,同泰仪 T3DE主板*1
Intel 6454S *2
三星32G DDR5 RECC*16
RTX 4090 24G单涡轮*4
致态 TIPLUS7100-1TBG PCIE4.0 7000R/6000W *1
致态 TIPLUS7100-4TBG PCIE4.0 7000R/6000W*2做阵列
长城2000W
4U八盘位热插拔服务器机箱
这个搞FP16是否可行,还是只能搞INT8?
token/s 有多少?或者国内有啥好点的deepseek论坛吗?
先感谢各位了 b站有up做了很多测试,也许他有资源。 FP16 需要140G 啊,爆显存,只能搞INT8,然后 26G 做上下文KV缓存啥的。无责任推测,大概有25~30tps 有512G内存部署什么70b,直接部署deepseek-r1 671b q4量化啊 ux4d 发表于 2025-3-26 15:22
有512G内存部署什么70b,直接部署deepseek-r1 671b q4量化啊
蛤蛤蛤,我妹有看到后面的*16,以为只有32G内存 买mac studio 512g版本的 显存才96GB,用Q4的话估计也就不到10t/s?而且512GB内存,太紧张了,光模型文件就差不多这么大了。70B还是个智障,不如直接上动态量化版的 本帖最后由 zhuifeng88 于 2025-3-26 16:09 编辑
saga1974 发表于 2025-3-26 15:48
显存才96GB,用Q4的话估计也就不到10t/s?而且512GB内存,太紧张了,光模型文件就差不多这么大了。70B还是 ...
q4 671b ktransformers这配置至少15token/s decode了怎么可能不到10
然后70b fp8的话, bs=1不用投机采样30token/s出头, eagle2一般情况下能有2倍以上稳定收益, 高并发的话随便测了下, 显存限制下能到至少450/160这样, (pcie4.0 x8)
当然楼主这配置和希望的方案很不合理...不知道从哪开始吐槽就是了 xbl919849900 发表于 2025-3-26 15:28
买mac studio 512g版本的
只能说建议自己测一下跑70b q8 bs1能不能到上面速度的一半, 高并发能不能到20%再云... 感谢各位大佬的解答,意思是说deepseek-r1 671b q4比70B FP16要好是吧 zhuifeng88 发表于 2025-3-26 16:05
q4 671b ktransformers这配置至少15token/s decode了怎么可能不到10
然后70b fp8的话, bs=1不用投机采样 ...
大佬 有啥要改的 该配置支持FP16和INT8推理,FP16适合高精度场景,INT8适合高吞吐需求。
性能预期:FP16模式下预计40-50 tokens/s,INT8模式下可达80-100 tokens/s(需量化优化)。 借楼问一下,官网的网页版是满血的吗[偷笑] gxylsp2008 发表于 2025-3-26 16:35
大佬 有啥要改的
两个建议的修改方向吧
1. 去跑671b q4, 这样的话内存建议至少加到768 (16 * 48), 不然浪费cpu算力
2. 一定要跑70b q8的话, 不建议spr+4090x4, 浪费...icl+3060x8/x12合理得多(当然花的反正不是自己的钱, 就这个配置拉倒也不是不行) 70b效果不咋样吧,32b的千问版说是还行,然后还有阿里新的qwq,4090不是有48G版,全量倒是没指望,就算部了感觉也就一个人能玩 抱脸啊或者gitee 本帖最后由 kirazlm 于 2025-3-26 21:31 编辑
个人建议还是明确一下客户需求,要是只是搭一套玩玩,那用KTransformers上671B参数的R1都行,但要是基于DeepSeek部署RAG应用,那32B的都有可能扛不住,因为每次回答的上下文大小也是影响显卡显存占用的重要因素,而且它的显存占用随着并发数,线性增长的。
可以参考一下这个视频:https://www.bilibili.com/video/BV1obXrYUENz
还有之前一直很火爆的北大分享的《DeepSeek私有化部署和一体机部署教程》,那里面有类似配置的上下文并发参考数据。 显存96Gint8 70b 有点尴尬 ,内存512G DDR5 跑671b 又有点不够,KTransformers可以上,问问客户具体需求是什么吧,再订下部署方向。 你这个配置直接上满血R1,unsloth 2.51bit那个,够用的了。 oruphy 发表于 2025-3-26 16:41
该配置支持FP16和INT8推理,FP16适合高精度场景,INT8适合高吞吐需求。
性能预期:FP16模式下预计40-50 tok ...
谢谢大佬 zhuifeng88 发表于 2025-3-26 17:21
两个建议的修改方向吧
1. 去跑671b q4, 这样的话内存建议至少加到768 (16 * 48), 不然浪费cpu算力
2. 一 ...
好的,好的,感谢 kirazlm 发表于 2025-3-26 21:29
个人建议还是明确一下客户需求,要是只是搭一套玩玩,那用KTransformers上671B参数的R1都行,但要是基于Dee ...
我去看看,感谢
页:
[1]