关于deepseek的一些问题，请教各位大佬

gxylsp2008 发表于 2025-3-26 13:42

客户叫帮装一台，70B的本地部署，具体配置如下，
同泰仪 T3DE主板*1
Intel 6454S *2
三星32G DDR5 RECC*16
RTX 4090 24G单涡轮*4
致态 TIPLUS7100-1TBG PCIE4.0 7000R/6000W *1
致态 TIPLUS7100-4TBG PCIE4.0 7000R/6000W*2做阵列
长城2000W
4U八盘位热插拔服务器机箱
这个搞FP16是否可行，还是只能搞INT8？
token/s 有多少？或者国内有啥好点的deepseek论坛吗?
先感谢各位了

黑色会 发表于 2025-3-26 14:52

b站有up做了很多测试，也许他有资源。

Miner 发表于 2025-3-26 15:03

FP16 需要140G 啊，爆显存，只能搞INT8，然后 26G 做上下文KV缓存啥的。无责任推测，大概有25~30tps

ux4d 发表于 2025-3-26 15:22

有512G内存部署什么70b，直接部署deepseek-r1 671b q4量化啊

Miner 发表于 2025-3-26 15:23

ux4d 发表于 2025-3-26 15:22
有512G内存部署什么70b，直接部署deepseek-r1 671b q4量化啊

蛤蛤蛤，我妹有看到后面的*16，以为只有32G内存

xbl919849900 发表于 2025-3-26 15:28

买mac studio 512g版本的

saga1974 发表于 2025-3-26 15:48

显存才96GB，用Q4的话估计也就不到10t/s？而且512GB内存，太紧张了，光模型文件就差不多这么大了。70B还是个智障，不如直接上动态量化版的

zhuifeng88 发表于 2025-3-26 16:05

本帖最后由 zhuifeng88 于 2025-3-26 16:09 编辑

saga1974 发表于 2025-3-26 15:48
显存才96GB，用Q4的话估计也就不到10t/s？而且512GB内存，太紧张了，光模型文件就差不多这么大了。70B还是 ...

q4 671b ktransformers这配置至少15token/s decode了怎么可能不到10

然后70b fp8的话, bs=1不用投机采样30token/s出头, eagle2一般情况下能有2倍以上稳定收益, 高并发的话随便测了下, 显存限制下能到至少450/160这样, (pcie4.0 x8)

当然楼主这配置和希望的方案很不合理...不知道从哪开始吐槽就是了

zhuifeng88 发表于 2025-3-26 16:07

xbl919849900 发表于 2025-3-26 15:28
买mac studio 512g版本的

只能说建议自己测一下跑70b q8 bs1能不能到上面速度的一半, 高并发能不能到20%再云...

gxylsp2008 发表于 2025-3-26 16:30

感谢各位大佬的解答，意思是说deepseek-r1 671b q4比70B FP16要好是吧

gxylsp2008 发表于 2025-3-26 16:35

zhuifeng88 发表于 2025-3-26 16:05
q4 671b ktransformers这配置至少15token/s decode了怎么可能不到10

然后70b fp8的话, bs=1不用投机采样 ...

大佬有啥要改的

oruphy 发表于 2025-3-26 16:41

该配置支持FP16和INT8推理，FP16适合高精度场景，INT8适合高吞吐需求。
性能预期：FP16模式下预计40-50 tokens/s，INT8模式下可达80-100 tokens/s（需量化优化）。

niqian6666163 发表于 2025-3-26 16:57

借楼问一下，官网的网页版是满血的吗[偷笑]

zhuifeng88 发表于 2025-3-26 17:21

gxylsp2008 发表于 2025-3-26 16:35
大佬有啥要改的

两个建议的修改方向吧
1. 去跑671b q4, 这样的话内存建议至少加到768 (16 * 48), 不然浪费cpu算力
2. 一定要跑70b q8的话, 不建议spr+4090x4, 浪费...icl+3060x8/x12合理得多(当然花的反正不是自己的钱, 就这个配置拉倒也不是不行)

deepfishing 发表于 2025-3-26 17:29

70b效果不咋样吧，32b的千问版说是还行，然后还有阿里新的qwq，4090不是有48G版，全量倒是没指望，就算部了感觉也就一个人能玩

a350dth 发表于 2025-3-26 17:31

抱脸啊或者gitee

kirazlm 发表于 2025-3-26 21:29

本帖最后由 kirazlm 于 2025-3-26 21:31 编辑

个人建议还是明确一下客户需求，要是只是搭一套玩玩，那用KTransformers上671B参数的R1都行，但要是基于DeepSeek部署RAG应用，那32B的都有可能扛不住，因为每次回答的上下文大小也是影响显卡显存占用的重要因素，而且它的显存占用随着并发数，线性增长的。
可以参考一下这个视频：https://www.bilibili.com/video/BV1obXrYUENz
还有之前一直很火爆的北大分享的《DeepSeek私有化部署和一体机部署教程》，那里面有类似配置的上下文并发参考数据。

sun3797 发表于 2025-3-26 21:40

显存96Gint8 70b 有点尴尬，内存512G DDR5 跑671b 又有点不够，KTransformers可以上，问问客户具体需求是什么吧，再订下部署方向。

Miaow1874 发表于 2025-3-27 07:48

你这个配置直接上满血R1，unsloth 2.51bit那个，够用的了。

gxylsp2008 发表于 2025-3-27 11:31

oruphy 发表于 2025-3-26 16:41
该配置支持FP16和INT8推理，FP16适合高精度场景，INT8适合高吞吐需求。
性能预期：FP16模式下预计40-50 tok ...

谢谢大佬

gxylsp2008 发表于 2025-3-27 11:32

zhuifeng88 发表于 2025-3-26 17:21
两个建议的修改方向吧
1. 去跑671b q4, 这样的话内存建议至少加到768 (16 * 48), 不然浪费cpu算力
2. 一 ...

好的，好的，感谢

gxylsp2008 发表于 2025-3-27 11:33

kirazlm 发表于 2025-3-26 21:29
个人建议还是明确一下客户需求，要是只是搭一套玩玩，那用KTransformers上671B参数的R1都行，但要是基于Dee ...

我去看看，感谢

页: [1]

Chiphell - 分享与交流用户体验's Archiver

关于deepseek的一些问题，请教各位大佬