领导让给公司搭个部署deepseek的机子，目标1k token/s

g7muik · 发表于 2025-2-6 12:04

你这个需求要上个 h200 集群

qdzx123 · 发表于 2025-2-6 13:33

楼主能回复一下什么情况吗
是参数搞错了还是真这么富裕

qdzx123 · 发表于 2025-2-6 13:38

我輩樹である发表于 2025-2-5 17:08
这么大预算居然来网上找方案。没打过这么富裕的仗。

要达到1000t，肯定不是单个session 1000t，比如100个s ...

我有个问题真的能达到80% 这个80%指的是？

qdzx123 · 发表于 2025-2-6 13:39

af_x_if 发表于 2025-2-5 18:38
不用那么着急的，一年后可能deepseek最强模型的规模上千b了，同时那个模型的72b蒸馏也跟R1有来有回了。
先a ...

真的有来有回吗求详细测试

和量化原版比谁更好

qdzx123 · 发表于 2025-2-6 13:47

zm335148 发表于 2025-2-5 21:10
今天看了下，671B建议4X A100 512G内存

您好不够这样只能跑4位

4位好像都不够
a100只有80g版

我輩樹である · 发表于 2025-2-6 13:50

其实我觉得楼主也不是在开玩笑，如果利用率10%，那么花1000万可以解决千人级别公司使用大模型的问题，本地部署还附带数据不上网、马赛克少的优点，不如说还算比较划算。

只是部署的是动态1.58bit的。

湿求了鸭 · 发表于 2025-2-6 13:55

gb200请

我輩樹である · 发表于 2025-2-6 14:05

qdzx123 发表于 2025-2-6 13:38
我有个问题真的能达到80% 这个80%指的是？

愤怒的小鸟生成测试，

其实没什么参考价值，混淆视听的说法。

hjmfun · 发表于 2025-2-6 14:25

b200 先来个16张，估计需要8位数

xjr12000 · 发表于 2025-2-6 14:54

事实上，你的要求更适合去买LPU来实现
用这种推理专用LPU，成本会下降至少一半

Darylyexu · 发表于 2025-2-6 15:20

八位数，下一个

af_x_if · 发表于 2025-2-6 16:40

qdzx123 发表于 2025-2-6 13:39
真的有来有回吗求详细测试

和量化原版比谁更好

现在当然对未来是预测，根据的是ai目前有个类似摩尔定律的规律，就是同样性能的模型每一百天规模减半。

qp6g3o · 发表于 2025-2-6 16:43

信口开河么？预算和到位时间，也没说

lnron · 发表于 2025-2-6 17:24

领导逗你玩，或者压根不懂。

TFqbso · 发表于 2025-2-6 17:24

YsHaNg 发表于 2025-2-5 18:15
谁说不能

请问一下，这个用的是哪个软件？需要楼梯吗

YsHaNg · 发表于 2025-2-6 17:51

TFqbso 发表于 2025-2-6 09:24
请问一下，这个用的是哪个软件？需要楼梯吗

ollama的前端 https://docs.openwebui.com/ 我docker装的因为打包了ollama 不知道你

docker run -d --gpus=all ghcr.io/open-webui/open-webui:ollama

复制代码

声色茶马 · 发表于 2025-2-6 20:57

没准儿LZ领导手里真就是攥着一个亿的装机预算花不出去，所以必须整个大活呢？

Noctis_Lunafrey · 发表于 2025-2-6 22:02

xy. 发表于 2025-2-5 16:24
这种级别的活, 如果需要问网友, 那么由你来做不合适.

的确，要不叫领导把这个工作分给别人，要不让他多花点钱买硬件。有671B需求的公司，应该说是集团公司，竟然跑这个论坛来问这个问题。。
结论就是：这个帖子是某xx的？

shanzhu2016 · 发表于 2025-2-6 22:17

我们这两天搭建全尺寸版本，用的2台8卡H100 GPU服务器，总计16张H100

shanzhu2016 · 发表于 2025-2-6 22:17

我自横刀发表于 2025-2-5 17:00
DeepSeek Coder是一个支持商业使用的代码大模型，以下是部署一套完整版全量671B的DeepSeek并达到1000token/ ...

8张H100跑不起来的，测过了

mdeu · 发表于 2025-2-6 22:37

671b 1000token/s?

这H200都得带点规模

你问问你领导睡醒了没有

szjzll · 发表于 2025-2-7 01:15

核心挑战
显存需求：

671B 参数模型（FP16 精度）需约 1.34TB 显存（每个参数占 2 字节）。

即使使用 INT8 量化，仍需约 671GB 显存，远超单卡显存容量。

计算吞吐量：

1K Token/s 的生成速度需极高的浮点算力（FP16 或 INT8）和极低延迟的通信带宽。

硬件配置方案
组件推荐配置
GPU 型号 NVIDIA H100 80GB（支持 FP8 量化、高带宽显存）或 A100 80GB（性价比次选）
GPU 数量至少 16~32 张 H100（通过模型并行+流水线并行+张量并行拆分模型）
互联网络 NVIDIA NVLink + InfiniBand HDR（200Gbps+，降低多卡通信延迟）
CPU/RAM 双路 AMD EPYC 或 Intel Xeon（64核+），512GB+ DDR5 内存
存储 NVMe SSD RAID（10TB+，高速加载模型权重）
电源/散热定制化机架，支持 10kW+ 电源和液冷散热
关键技术优化
量化压缩：

使用 FP8/INT4 量化，显存需求可降至 335GB~168GB，但需框架支持（如 TensorRT-LLM）。

分布式推理：

模型并行：将模型层拆分到多张 GPU（如 671B 模型拆分为 16 个 42B 的子模块）。

流水线并行：按 token 生成阶段分片处理，提升吞吐量。

张量并行：将矩阵计算拆分到多卡（如每层注意力头分布到不同 GPU）。

推理框架：

使用 TensorRT-LLM、DeepSpeed-Inference 或 vLLM，支持动态批处理和显存优化。

通信优化：

通过 NVLink 3.0（900GB/s 带宽）和 InfiniBand 互联，减少多卡通信延迟。

性能估算
单 H100 的算力：约 67 TFLOPS（FP16 Tensor Core）

生成速度需求：

假设每个 token 需 1,000 次浮点操作（粗略估算），则 1K Token/s 需 1 PetaFLOPS（即 1,000 TFLOPS）。

需要至少 16 张 H100（16×67=1,072 TFLOPS），但实际需考虑通信和并行效率（通常打 30%~50% 折扣）。

最终建议：32 张 H100 集群，配合极致优化代码。

成本预估
组件成本（估算）
32×H100 80GB 约
400
,
000

400,000 600,000
NVLink/InfiniBand 约 $50,000
服务器/散热约 $50,000
总计
500
,
000

500,000 700,000
简化版结论
最低配置：16×H100 80GB + NVLink/InfiniBand + 量化（FP8）。

目标速度：通过分布式并行和优化代码，可能接近 1K Token/s，但需牺牲部分模型精度。

实际限制：目前 671B 模型的本地部署成本极高，建议优先考虑云服务（如 AWS/Azure 的 H100 集群）。

TincoJ · 发表于 2025-2-7 10:55

我觉得不如问收购Deepseek要多钱

zlcrxp · 发表于 2025-2-7 11:24

不懂的领导，问了不懂的员工，到论坛问了不懂的坛友，这结果可想而知...

星空小琛 · 发表于 2025-2-7 22:42

allenxml 发表于 2025-2-6 00:28
910B3只能跑BF16精度的，需要4台8卡910B3起步

是的，今天正好看到省公司准备搞满血版，有人问了下，32张910B

lyys · 发表于 2025-2-7 22:44

星空小琛发表于 2025-2-7 22:42
是的，今天正好看到省公司准备搞满血版，有人问了下，32张910B

320万？

shiho · 发表于 2025-2-7 22:48

现在说啥都带一句DS才显得入流。前面几个主流国产的都没用过的人，都是来测热闹流量的额。。

蹲一个后续，成了记得晒贴。

星空小琛 · 发表于 2025-2-7 23:52

lyys 发表于 2025-2-7 22:44
320万？

按照去年低我询价结果，算上配套800+了

暂时是猫 · 发表于 2025-2-9 06:29

NVIDIA HGX H200 (8张H200) ,大约30万美元，每秒 3000 token

herbertyang · 发表于 2025-2-9 09:34

1000token/s，楼主来错地方了

账号		自动登录	找回密码
密码			加入我们

[装机] 领导让给公司搭个部署deepseek的机子，目标1k token/s

浏览过的版块