找回密码
 加入我们
搜索
      
查看: 17982|回复: 134

[装机] 领导让给公司搭个部署deepseek的机子,目标1k token/s

  [复制链接]
发表于 2025-2-5 16:12 来自手机 | 显示全部楼层 |阅读模式
本帖最后由 海口天空 于 2025-2-5 16:22 编辑

有没有大神给个配置,谢谢
————————————-
补充一下,部署完整版671b的deepseek
发表于 2025-2-5 16:14 | 显示全部楼层
本帖最后由 Barcelona 于 2025-2-5 16:32 编辑

选定具体哪个模型再说吧

我的妈,要部署1.3TB的原版模型啊
发表于 2025-2-5 16:14 | 显示全部楼层
这个数量级,六位数打个底先吧
发表于 2025-2-5 16:15 | 显示全部楼层
671B? 
发表于 2025-2-5 16:16 | 显示全部楼层
模型用那个,1.5b和671b区别不要太大
发表于 2025-2-5 16:17 来自手机 | 显示全部楼层
671b 1000token/s?
 楼主| 发表于 2025-2-5 16:20 来自手机 | 显示全部楼层
xy. 发表于 2025-2-5 16:15
671B? 

是的是的
 楼主| 发表于 2025-2-5 16:20 来自手机 | 显示全部楼层
psps3 发表于 2025-2-5 16:17
671b 1000token/s?

是的是的
 楼主| 发表于 2025-2-5 16:21 来自手机 | 显示全部楼层
各路游走 发表于 2025-2-5 16:16
模型用那个,1.5b和671b区别不要太大

671b的哈
发表于 2025-2-5 16:23 | 显示全部楼层
直接问dp不更好
发表于 2025-2-5 16:23 来自手机 | 显示全部楼层
xyk456as 发表于 2025-2-5 16:14
这个数量级,六位数打个底先吧

加个零都不够
发表于 2025-2-5 16:24 | 显示全部楼层


这种级别的活, 如果需要问网友, 那么由你来做不合适.
发表于 2025-2-5 16:26 | 显示全部楼层
本帖最后由 a010301208 于 2025-2-5 16:29 编辑

1000不难,H200就够了,就是671b的话显存不够,如果一定要跑FP16的话买18张A800吧
发表于 2025-2-5 16:26 | 显示全部楼层
多大的公司跑671b?我怀疑领导给的预算跑71b都跑不动
发表于 2025-2-5 16:28 | 显示全部楼层
你要问他给多少预算 别就给几个W
发表于 2025-2-5 16:29 | 显示全部楼层
问他预算  别就给几个W 买个平台都不够。。。别说计算卡了
正式平台可不便宜  别拿闲鱼来参考
发表于 2025-2-5 16:30 | 显示全部楼层
671b全量模型、1k tokens/s?我滴妈,什么神仙公司?7-8位数打底吧
发表于 2025-2-5 16:30 | 显示全部楼层
一般这种都是找供应商解决的,蹲一个后续看看
发表于 2025-2-5 16:31 | 显示全部楼层
至少3~4个8卡节点,就算捡垃圾也得100万起了
发表于 2025-2-5 16:33 | 显示全部楼层
我问了gemini,他说要:
GPU: 至少 8 块 NVIDIA A100 80GB 或 H100 80GB。 这取决于模型的实际内存占用和DeepSpeed的优化策略,如果内存占用高于8块GPU的总内存,需要增加GPU数量。 H100性能更强,但价格更高。 A100也是一个不错的选择,更易于获取。
发表于 2025-2-5 16:34 | 显示全部楼层
671b只能是通过6-8张A100/H100或者阉割版的A800/H800来流畅运行,不过我觉得你司应该承担不起这个价格
发表于 2025-2-5 16:36 | 显示全部楼层
nvl 72   3872tokens /s   参考下。
发表于 2025-2-5 16:36 | 显示全部楼层
我问了下** 你这个需求需要1000W
  1. 项目        单价(美元)        数量        小计(美元)        小计(人民币)
  2. GPU        $35,000        32        $1,120,000        约 780 万
  3. 服务器        $22,000        4        $88,000        约 62 万
  4. 电源与散热        $2,000        4        $8,000        约 5.6 万
  5. 机柜与配件        $5,000        2        $10,000        约 7 万
  6. 网络设备        -        -        $100,000        约 70 万
  7. 数据中心        -        -        $50,000 - $70,000        约 35 - 50 万
  8. 部署与人力        -        -        $141,000        约 100 万
  9. 软件工具        -        -        $0 - $24,000        开源或免费
  10. 总计        -        -        $1,570,000 - $1,660,000        约 1100 - 1200 万
复制代码
发表于 2025-2-5 16:39 | 显示全部楼层
自己部署的又不能联网搜索
直接api不香嘛
发表于 2025-2-5 16:43 | 显示全部楼层
反正8卡H100是完全达不到。80卡都困难。
发表于 2025-2-5 16:46 | 显示全部楼层

问不了了  大多数时候是无响应
发表于 2025-2-5 16:50 | 显示全部楼层
有个帖子不是提到上大内存可破,虽然cpu速度慢。
发表于 2025-2-5 16:52 | 显示全部楼层
帮你问过DEEPSEEK了,看看吧
要实现 DeepSeek R1 671B 完整版的本地部署,并达到 1000 token/s 的推理速度,需综合考虑硬件配置、量化技术、成本投入等多方面因素。根据搜索结果中的信息,当前技术条件下需注意以下关键点:

一、核心挑战与可行性分析
模型规模与硬件需求

完整版 DeepSeek R1 671B 是混合专家模型(MoE),未经压缩的原始模型体积达 720GB135。

动态量化后模型可压缩至 131GB(1.58-bit)至 404GB(4-bit),但量化版本对推理速度和模型性能有直接影响13。

内存+显存总需求:1.58-bit 量化需 ≥200GB,4-bit 需 ≥500GB15。

当前性能基准

高配工作站(四路 RTX 4090 + 384GB 内存):短文本生成速度为 7-8 token/s(1.73-bit 量化),4-bit 版本仅 2-4 token/s13。

云 GPU(如双 H100 80GB):速度可达 10+ token/s15。

目标 1000 token/s:需 数量级提升,远超当前主流硬件能力,需特殊优化或超大规模并行架构。

二、实现 1000 token/s 的潜在方案与成本
方案 1:超大规模 GPU 集群
硬件需求

使用 多张 H100 80GB GPU(单卡显存 80GB,支持 NVLink 互联),每卡加载更多模型层。

根据量化版本不同,需 数十至上百张 H100 并行处理,结合分布式推理框架(如 vLLM、TGI)12。

内存带宽需极高(如 24×16GB DDR5 服务器)5。

成本估算

硬件购置:单张 H100 成本约 3.5~4 万美元,假设需 50 张,则硬件成本约 175~200 万美元(不含服务器、网络、存储等)。

云租赁:按每小时 4~5 美元/卡 计算,50 张 H100 每小时成本约 200~250 美元,月成本约 14.4~18 万美元15。

方案 2:专用硬件加速器
使用 Cerebras 或 Graphcore IPU

针对大模型优化的专用芯片可提升吞吐量,但需定制化部署,成本更高。

参考案例:Cerebras 集群部署千亿模型,单次训练成本达数百万美元,推理成本类似12。

方案 3:混合优化策略
模型分割与流水线并行

将模型层分配到多台服务器,结合 CPU-GPU 混合推理,但需复杂工程优化。

需 高内存带宽服务器(如 2TB 内存) 支持长上下文缓存12。

三、成本对比与建议
方案        硬件配置        速度(token/s)        成本(估算)
单台 Mac Studio        192GB 统一内存        10~15        约 5600 美元1
双 H100 云服务器        2×80GB 显存        10~20        4~5 美元/小时1
大规模 H100 集群        50×H100 + 高带宽内存        1000+        200 万美元+(购置)
专用加速器集群        Cerebras/Graphcore        1000+        500 万美元+(定制)
四、结论与优化建议
目标调整:目前 1000 token/s 的吞吐量在常规硬件下极难实现,建议降低预期至 100~200 token/s,或采用分布式推理+低精度量化(如 1.58-bit)35。

成本优化:

选择 1.58-bit 量化模型(131GB),结合云 GPU 按需扩展1。

探索 MoE 模型动态路由优化,减少计算冗余12。

长期规划:关注 下一代 GPU(如 Blackwell 架构) 或 AI 专用芯片,可能在未来 1~2 年内降低部署成本。

若坚持 1000 token/s 目标,建议联系硬件厂商(如 NVIDIA、Cerebras)定制方案,并预留 200~500 万美元 预算。
发表于 2025-2-5 16:56 来自手机 | 显示全部楼层
几千万的采购项目,领导就让你来论坛问
逗人开心呢?
发表于 2025-2-5 17:00 来自手机 | 显示全部楼层
DeepSeek Coder是一个支持商业使用的代码大模型,以下是部署一套完整版全量671B的DeepSeek并达到1000token/sec性能大致所需的配置和预算分析:

硬件配置

- 服务器:需多台高性能服务器,每台服务器建议配置为Intel Xeon可扩展处理器,如8380或更高型号,512GB及以上DDR4或DDR5内存,以提供强劲的计算和数据处理能力。

- GPU:单台服务器需配备多个NVIDIA H100或A100 Tensor Core显卡,前者单精度算力可达312 TFLOPS,后者也有高达19.5 TFLOPS的单精度算力,一般需要8-16张GPU卡。

- 存储:需要大容量高速固态硬盘(SSD)组成的RAID阵列,如使用企业级的三星983DCT等,总容量要达到数TB甚至更高,以确保模型数据快速读写。

- 网络:配备万兆以太网接口及以上的网络设备,如支持万兆的交换机等,保障服务器间通信带宽。

软件配置

- 操作系统:选用Linux系统,如CentOS 7或Ubuntu 20.04等,稳定且对深度学习支持好。

- 深度学习框架:采用PyTorch或TensorFlow等主流框架,并根据DeepSeek要求配置相应版本。

- 驱动程序:安装NVIDIA官方最新的显卡驱动及CUDA工具包、CUDNN库,确保GPU性能充分发挥。

预算分析

- 硬件成本:高性能服务器单台约5-10万元,若需5台则约25-50万元;NVIDIA H100单张约30-40万元,按8张算需240-320万元;大容量SSD及RAID设备约5-10万元;万兆网络设备约2-5万元。总计约272-385万元。

- 软件成本:Linux系统开源免费,PyTorch和TensorFlow等深度学习框架开源免费,NVIDIA CUDA和CUDNN部分版本免费,总体软件成本低,主要是可能的技术支持与维护购买费用,每年约5-10万元。

- 运维成本:需专业运维人员,每年人力成本约20-30万元;服务器、GPU等设备功耗大,每月电费约2-5万元,一年约24-60万元,加上硬件设备折旧等其他成本,每年运维成本总计约44-90万元。

以上配置和预算为大致估算,实际会因市场波动、具体需求和技术更新等因素有所不同。
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-21 10:04 , Processed in 0.013907 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表