找回密码
 加入我们
搜索
      
查看: 1852|回复: 21

[软件] 关于deepseek的一些问题,请教各位大佬

[复制链接]
发表于 2025-3-26 13:42 | 显示全部楼层 |阅读模式
客户叫帮装一台,70B的本地部署,具体配置如下,
同泰仪 T3DE主板*1
Intel 6454S *2
三星32G DDR5 RECC*16
RTX 4090 24G单涡轮*4
致态 TIPLUS7100-1TBG PCIE4.0 7000R/6000W   *1
致态 TIPLUS7100-4TBG PCIE4.0 7000R/6000W  *2做阵列
长城2000W
4U八盘位热插拔服务器机箱
这个搞FP16是否可行,还是只能搞INT8?
token/s 有多少?或者国内有啥好点的deepseek论坛吗?
先感谢各位了
发表于 2025-3-26 14:52 | 显示全部楼层
b站有up做了很多测试,也许他有资源。
发表于 2025-3-26 15:03 | 显示全部楼层
FP16 需要140G 啊,爆显存,只能搞INT8,然后 26G 做上下文KV缓存啥的。无责任推测,大概有25~30tps
发表于 2025-3-26 15:22 来自手机 | 显示全部楼层
有512G内存部署什么70b,直接部署deepseek-r1 671b q4量化啊

评分

参与人数 1邪恶指数 +5 收起 理由
Barcelona + 5

查看全部评分

发表于 2025-3-26 15:23 | 显示全部楼层
ux4d 发表于 2025-3-26 15:22
有512G内存部署什么70b,直接部署deepseek-r1 671b q4量化啊

蛤蛤蛤,我妹有看到后面的*16,以为只有32G内存
发表于 2025-3-26 15:28 | 显示全部楼层
买mac studio 512g版本的
发表于 2025-3-26 15:48 | 显示全部楼层
显存才96GB,用Q4的话估计也就不到10t/s?而且512GB内存,太紧张了,光模型文件就差不多这么大了。70B还是个智障,不如直接上动态量化版的
发表于 2025-3-26 16:05 | 显示全部楼层
本帖最后由 zhuifeng88 于 2025-3-26 16:09 编辑
saga1974 发表于 2025-3-26 15:48
显存才96GB,用Q4的话估计也就不到10t/s?而且512GB内存,太紧张了,光模型文件就差不多这么大了。70B还是 ...


q4 671b ktransformers这配置至少15token/s decode了怎么可能不到10

然后70b fp8的话, bs=1不用投机采样30token/s出头, eagle2一般情况下能有2倍以上稳定收益, 高并发的话随便测了下, 显存限制下能到至少450/160这样, (pcie4.0 x8)
PowerToys_Paste_20250326155839.png PowerToys_Paste_20250326155702.png PowerToys_Paste_20250326160213.png

当然楼主这配置和希望的方案很不合理...不知道从哪开始吐槽就是了
发表于 2025-3-26 16:07 | 显示全部楼层
xbl919849900 发表于 2025-3-26 15:28
买mac studio 512g版本的

只能说建议自己测一下跑70b q8 bs1能不能到上面速度的一半, 高并发能不能到20%再云...
 楼主| 发表于 2025-3-26 16:30 | 显示全部楼层
感谢各位大佬的解答,意思是说deepseek-r1 671b q4比70B FP16要好是吧
 楼主| 发表于 2025-3-26 16:35 | 显示全部楼层
zhuifeng88 发表于 2025-3-26 16:05
q4 671b ktransformers这配置至少15token/s decode了怎么可能不到10

然后70b fp8的话, bs=1不用投机采样 ...

大佬 有啥要改的
发表于 2025-3-26 16:41 | 显示全部楼层
该配置支持FP16和INT8推理,FP16适合高精度场景,INT8适合高吞吐需求。
性能预期:FP16模式下预计40-50 tokens/s,INT8模式下可达80-100 tokens/s(需量化优化)。
发表于 2025-3-26 16:57 | 显示全部楼层
借楼问一下,官网的网页版是满血的吗
发表于 2025-3-26 17:21 | 显示全部楼层


两个建议的修改方向吧
1. 去跑671b q4, 这样的话内存建议至少加到768 (16 * 48), 不然浪费cpu算力
2. 一定要跑70b q8的话, 不建议spr+4090x4, 浪费...icl+3060x8/x12合理得多(当然花的反正不是自己的钱, 就这个配置拉倒也不是不行)
发表于 2025-3-26 17:29 | 显示全部楼层
70b效果不咋样吧,32b的千问版说是还行,然后还有阿里新的qwq,4090不是有48G版,全量倒是没指望,就算部了感觉也就一个人能玩
发表于 2025-3-26 17:31 | 显示全部楼层
抱脸啊  或者gitee
发表于 2025-3-26 21:29 | 显示全部楼层
本帖最后由 kirazlm 于 2025-3-26 21:31 编辑

个人建议还是明确一下客户需求,要是只是搭一套玩玩,那用KTransformers上671B参数的R1都行,但要是基于DeepSeek部署RAG应用,那32B的都有可能扛不住,因为每次回答的上下文大小也是影响显卡显存占用的重要因素,而且它的显存占用随着并发数,线性增长的。
可以参考一下这个视频:https://www.bilibili.com/video/BV1obXrYUENz
还有之前一直很火爆的北大分享的《DeepSeek私有化部署和一体机部署教程》,那里面有类似配置的上下文并发参考数据。
发表于 2025-3-26 21:40 | 显示全部楼层
显存96G  int8 70b 有点尴尬 ,内存512G DDR5 跑671b 又有点不够  ,KTransformers可以上,问问客户具体需求是什么吧,再订下部署方向。
发表于 2025-3-27 07:48 | 显示全部楼层
你这个配置直接上满血R1,unsloth 2.51bit那个,够用的了。
 楼主| 发表于 2025-3-27 11:31 | 显示全部楼层
oruphy 发表于 2025-3-26 16:41
该配置支持FP16和INT8推理,FP16适合高精度场景,INT8适合高吞吐需求。
性能预期:FP16模式下预计40-50 tok ...

谢谢大佬
 楼主| 发表于 2025-3-27 11:32 | 显示全部楼层
zhuifeng88 发表于 2025-3-26 17:21
两个建议的修改方向吧
1. 去跑671b q4, 这样的话内存建议至少加到768 (16 * 48), 不然浪费cpu算力
2. 一 ...

好的,好的,感谢
 楼主| 发表于 2025-3-27 11:33 | 显示全部楼层
kirazlm 发表于 2025-3-26 21:29
个人建议还是明确一下客户需求,要是只是搭一套玩玩,那用KTransformers上671B参数的R1都行,但要是基于Dee ...

我去看看,感谢
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-20 13:57 , Processed in 0.012067 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表