找回密码
 加入我们
搜索
      
楼主: 海口天空

[装机] 领导让给公司搭个部署deepseek的机子,目标1k token/s

  [复制链接]
发表于 2025-2-6 12:04 来自手机 | 显示全部楼层
你这个需求要上个 h200 集群
发表于 2025-2-6 13:33 | 显示全部楼层
楼主能回复一下什么情况吗
是参数搞错了 还是真这么富裕
发表于 2025-2-6 13:38 | 显示全部楼层
我輩樹である 发表于 2025-2-5 17:08
这么大预算居然来网上找方案。没打过这么富裕的仗。

要达到1000t,肯定不是单个session 1000t,比如100个s ...

我有个问题 真的能达到80% 这个80%指的是?
发表于 2025-2-6 13:39 | 显示全部楼层
af_x_if 发表于 2025-2-5 18:38
不用那么着急的,一年后可能deepseek最强模型的规模上千b了,同时那个模型的72b蒸馏也跟R1有来有回了。
先a ...


真的有来有回吗 求详细测试

和量化原版比谁更好
发表于 2025-2-6 13:47 | 显示全部楼层
zm335148 发表于 2025-2-5 21:10
今天看了下,671B建议4X A100 512G内存


您好 不够 这样只能跑4位  

4位好像都不够
a100只有80g版
发表于 2025-2-6 13:50 | 显示全部楼层
其实我觉得楼主也不是在开玩笑,如果利用率10%,那么花1000万可以解决千人级别公司使用大模型的问题,本地部署还附带数据不上网、马赛克少的优点,不如说还算比较划算。

只是部署的是动态1.58bit的。
发表于 2025-2-6 13:55 | 显示全部楼层
gb200请
发表于 2025-2-6 14:05 | 显示全部楼层
qdzx123 发表于 2025-2-6 13:38
我有个问题 真的能达到80% 这个80%指的是?

愤怒的小鸟生成测试,其实没什么参考价值,混淆视听的说法。
发表于 2025-2-6 14:25 | 显示全部楼层
b200 先来个16张,估计需要8位数
发表于 2025-2-6 14:54 | 显示全部楼层
事实上,你的要求更适合去买LPU来实现
用这种推理专用LPU,成本会下降至少一半
发表于 2025-2-6 15:20 | 显示全部楼层
八位数,下一个
发表于 2025-2-6 16:40 来自手机 | 显示全部楼层
qdzx123 发表于 2025-2-6 13:39
真的有来有回吗 求详细测试

和量化原版比谁更好

现在当然对未来是预测,根据的是ai目前有个类似摩尔定律的规律,就是同样性能的模型每一百天规模减半。
发表于 2025-2-6 16:43 | 显示全部楼层
信口开河么?预算和到位时间,也没说
发表于 2025-2-6 17:24 | 显示全部楼层
领导逗你玩,或者压根不懂。
发表于 2025-2-6 17:24 | 显示全部楼层

请问一下,这个用的是哪个软件? 需要楼梯吗
发表于 2025-2-6 17:51 | 显示全部楼层
TFqbso 发表于 2025-2-6 09:24
请问一下,这个用的是哪个软件? 需要楼梯吗

ollama的前端 https://docs.openwebui.com/ 我docker装的因为打包了ollama 不知道你
  1. docker run -d --gpus=all ghcr.io/open-webui/open-webui:ollama
复制代码
发表于 2025-2-6 20:57 | 显示全部楼层
没准儿LZ领导手里真就是攥着一个亿的装机预算花不出去,所以必须整个大活呢?
发表于 2025-2-6 22:02 | 显示全部楼层
xy. 发表于 2025-2-5 16:24
这种级别的活, 如果需要问网友, 那么由你来做不合适.

的确,要不叫领导把这个工作分给别人,要不让他多花点钱买硬件。有671B需求的公司,应该说是集团公司,竟然跑这个论坛来问这个问题。。
结论就是:这个帖子是某xx的?
发表于 2025-2-6 22:17 | 显示全部楼层
我们这两天搭建全尺寸版本,用的2台8卡H100 GPU服务器,总计16张H100
发表于 2025-2-6 22:17 | 显示全部楼层
我自横刀 发表于 2025-2-5 17:00
DeepSeek Coder是一个支持商业使用的代码大模型,以下是部署一套完整版全量671B的DeepSeek并达到1000token/ ...

8张H100跑不起来的,测过了
发表于 2025-2-6 22:37 | 显示全部楼层
671b 1000token/s?

这H200都得带点规模

你问问你领导睡醒了没有
发表于 2025-2-7 01:15 | 显示全部楼层
核心挑战
显存需求:

671B 参数模型(FP16 精度)需约 1.34TB 显存(每个参数占 2 字节)。

即使使用 INT8 量化,仍需约 671GB 显存,远超单卡显存容量。

计算吞吐量:

1K Token/s 的生成速度需极高的浮点算力(FP16 或 INT8)和极低延迟的通信带宽。

硬件配置方案
组件        推荐配置
GPU 型号        NVIDIA H100 80GB(支持 FP8 量化、高带宽显存)或 A100 80GB(性价比次选)
GPU 数量        至少 16~32 张 H100(通过模型并行+流水线并行+张量并行拆分模型)
互联网络        NVIDIA NVLink + InfiniBand HDR(200Gbps+,降低多卡通信延迟)
CPU/RAM        双路 AMD EPYC 或 Intel Xeon(64核+),512GB+ DDR5 内存
存储        NVMe SSD RAID(10TB+,高速加载模型权重)
电源/散热        定制化机架,支持 10kW+ 电源和液冷散热
关键技术优化
量化压缩:

使用 FP8/INT4 量化,显存需求可降至 335GB~168GB,但需框架支持(如 TensorRT-LLM)。

分布式推理:

模型并行:将模型层拆分到多张 GPU(如 671B 模型拆分为 16 个 42B 的子模块)。

流水线并行:按 token 生成阶段分片处理,提升吞吐量。

张量并行:将矩阵计算拆分到多卡(如每层注意力头分布到不同 GPU)。

推理框架:

使用 TensorRT-LLM、DeepSpeed-Inference 或 vLLM,支持动态批处理和显存优化。

通信优化:

通过 NVLink 3.0(900GB/s 带宽)和 InfiniBand 互联,减少多卡通信延迟。

性能估算
单 H100 的算力:约 67 TFLOPS(FP16 Tensor Core)

生成速度需求:

假设每个 token 需 1,000 次浮点操作(粗略估算),则 1K Token/s 需 1 PetaFLOPS(即 1,000 TFLOPS)。

需要至少 16 张 H100(16×67=1,072 TFLOPS),但实际需考虑通信和并行效率(通常打 30%~50% 折扣)。

最终建议:32 张 H100 集群,配合极致优化代码。

成本预估
组件        成本(估算)
32×H100 80GB        约
400
,
000

400,000 600,000
NVLink/InfiniBand        约 $50,000
服务器/散热        约 $50,000
总计       
500
,
000

500,000 700,000
简化版结论
最低配置:16×H100 80GB + NVLink/InfiniBand + 量化(FP8)。

目标速度:通过分布式并行和优化代码,可能接近 1K Token/s,但需牺牲部分模型精度。

实际限制:目前 671B 模型的本地部署成本极高,建议优先考虑云服务(如 AWS/Azure 的 H100 集群)。
发表于 2025-2-7 10:55 | 显示全部楼层
我觉得不如问收购Deepseek要多钱
发表于 2025-2-7 11:24 | 显示全部楼层
不懂的领导,问了不懂的员工,到论坛问了不懂的坛友,这结果可想而知...
发表于 2025-2-7 22:42 | 显示全部楼层
allenxml 发表于 2025-2-6 00:28
910B3只能跑BF16精度的,需要4台8卡910B3起步

是的,今天正好看到省公司准备搞满血版,有人问了下,32张910B
发表于 2025-2-7 22:44 | 显示全部楼层
星空小琛 发表于 2025-2-7 22:42
是的,今天正好看到省公司准备搞满血版,有人问了下,32张910B

320万?
发表于 2025-2-7 22:48 | 显示全部楼层
现在说啥都带一句DS才显得入流。前面几个主流国产的都没用过的人,都是来测热闹流量的额。。

蹲一个后续,成了记得晒贴。
发表于 2025-2-7 23:52 | 显示全部楼层

按照去年低我询价结果,算上配套800+了
发表于 2025-2-9 06:29 | 显示全部楼层
NVIDIA HGX H200 (8张H200) ,大约30万美元, 每秒 3000 token
发表于 2025-2-9 09:34 | 显示全部楼层
1000token/s,楼主来错地方了
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-2-21 18:30 , Processed in 0.013733 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表