找回密码
 加入我们
搜索
      
查看: 3091|回复: 25

[显卡] 本地dsr1 671b8位 性价比最高的方案是华为300i duo吗?

[复制链接]
发表于 2025-2-9 13:10 | 显示全部楼层 |阅读模式
本帖最后由 qdzx123 于 2025-2-9 17:15 编辑

大概15000到20000一张 96g显存
8张  96x8 400的带宽 总带宽3200
20万左右能把一个o1级别的大模型运行起来还是挺带劲的
不知道能不能找到性价比更高的方案



ps:目前的cpu方案都不具备实用价值 过于慢了
发表于 2025-2-9 13:20 | 显示全部楼层
速度如何呢?
发表于 2025-2-9 14:08 来自手机 | 显示全部楼层
不考虑速度的话洋垃圾cpu塞满内存就能跑了
发表于 2025-2-9 14:23 | 显示全部楼层
华为的卡生态支持怎么样,配置起来容易吗?
发表于 2025-2-9 14:26 来自手机 | 显示全部楼层
epyc 1t内存
发表于 2025-2-9 15:27 | 显示全部楼层
关键是什么需求,cpu方案速度够不够个人使用,计算卡方案又能满足多少人规模的负载
发表于 2025-2-9 15:38 来自手机 | 显示全部楼层
500G没错能跑cpu版,自己用用是足够了
发表于 2025-2-9 15:43 | 显示全部楼层
其实我感觉本地化deepseek好像就和加载的存储有关,满血8bit要600多G显存,这帮显卡厂商肯定会出类似于以前狂牛版的那种狂堆显存的卡,对了还得往上提位宽,要不然支持不了那么大显存。至于GPU的性能提升对于个人或者小客户来说似乎不那么重要了,毕竟现在连CPU方案的速度也有人能忍。
发表于 2025-2-9 16:19 | 显示全部楼层
大概有两个问题
1. 生态是否支持, 由于国内这些给的开发资料很少,而且大多是要签署保密协议给公司的。 个人就算买来硬件很难操作。
2. 你需要自己优化和编译运行工具, 比如 llama.cpp  ,你可能需要自己建立分支,然后编写执行器。但这有需要上边详细技术参数,比如 多项式加法,输入什么格式,输出什么格式。
或者你可以绕过这些,用它们的编译工具,转换模型,但可能出现错误(毕竟 python 是个卡版本号的大坑环境)
这样就会获得专用模型,如果要对外提供服务,那么你还需要自己写一个API兼容接口,给其他程序调用。


发表于 2025-2-9 16:20 | 显示全部楼层
你要是不在乎速度,只是想跑起来,其实虚拟内存设置600G就能跑起来了,只不过1小时回复你一句话而已
发表于 2025-2-9 17:04 | 显示全部楼层
显存不过是快而已,内存也能跑,DS不跑cuda 就是要了老黄的皮衣!
发表于 2025-2-9 19:28 来自手机 | 显示全部楼层
牢厂的卡个人不要买……
发表于 2025-2-9 23:10 | 显示全部楼层
我现在就是用 32 张昇腾 910B2 本地部署的 DeepSeek R1 671B 模型,只是推理部署没有这么麻烦,MindIE 框架照着教程挺快就完事了。昇腾和其他厂的卡在推理方面从来都不是很麻烦,麻烦的是训练里面有些算子不兼容。
发表于 2025-2-9 23:11 | 显示全部楼层
gyc 发表于 2025-2-9 16:19
大概有两个问题
1. 生态是否支持, 由于国内这些给的开发资料很少,而且大多是要签署保密协议给公司的。 个 ...

没有这么麻烦,华为的 MindIE 框架基本上就是一条龙服务,照着教程就是起个 Docker,里面都是推理各种模型的脚本,也是可以一键向外提供 API 服务的
发表于 2025-2-9 23:13 | 显示全部楼层
300i duo 是昇腾 310B,我看目前 MindIE 框架的文档都是 910B 系列的。可能是因为 310B 的互联带宽有限制,不确定 310B 是否支持。
发表于 2025-2-10 00:14 | 显示全部楼层
ZEROAONE 发表于 2025-2-9 23:11
没有这么麻烦,华为的 MindIE 框架基本上就是一条龙服务,照着教程就是起个 Docker,里面都是推理各种模 ...

就怕更新不够快, 比如: 智普的小视觉模型就是 修改的llama 运行时,没有迁入到官方库。

这种模型,你要适配就麻烦的要命。。
发表于 2025-2-10 10:12 | 显示全部楼层
gyc 发表于 2025-2-10 00:14
就怕更新不够快, 比如: 智普的小视觉模型就是 修改的llama 运行时,没有迁入到官方库。

这种模型,你 ...

MindIE更新的还是挺快的,更不用说还是国产模型了,工程师跟进非常积极
发表于 2025-2-10 16:29 | 显示全部楼层

好吧,我去官方看一下

真有一篇文章,

https://www.hiascend.com/softwar ... 310aad9a0f55c3e56e3

根据这个文章,
要部署DeepSeek-R1模型用BF16权重进行推理至少需要4台Atlas 800I A2(8*64G)服务器,用W8A8量化权重进行推理则至少需要2台Atlas 800I A2 (8*64G)

所以需要的是至少2048G显存,8bit 量化 需要 1024G, 按照 300I 96GB 2.8W价格,需要大概12个,也就是33.6W,一台服务器最多安装8个,那么需要两台服务器, 也就说至少 40~50W了吧

发表于 2025-2-10 17:12 | 显示全部楼层
晕,发现一个更有趣的东西

香橙派OrangePi AIStudio Pro

看了以下说明书,这东西就是一个外置显卡啊, 用雷电PCIE通道外接。。到系统。。
本质就是是300I,不过价格好像要便宜很多

发表于 2025-2-10 17:13 | 显示全部楼层
300i duo我记得是单卡双芯,这两个芯片可以跑两卡并行,但并不能跟其他卡进行hccl或者rdma互联
发表于 2025-2-10 17:21 | 显示全部楼层
华为官方公众号的适配昇腾系列硬件中,没有300I DUO与671B版本的适配兼容性
发表于 2025-2-11 00:23 | 显示全部楼层
allenxml 发表于 2025-2-10 17:21
华为官方公众号的适配昇腾系列硬件中,没有300I DUO与671B版本的适配兼容性

需要自行转换模型吧,给的教程

大致看了以下,需要支持 F16/ int8 应该是常见类型,

不过就算这样也要 至少11块左右,两台服务器,大致看到资料这卡支持网络互联,因此至少还给有个高速网卡,不过两台机器,可以不用交换机
发表于 2025-2-11 09:04 | 显示全部楼层
gyc 发表于 2025-2-11 00:23
需要自行转换模型吧,给的教程

大致看了以下,需要支持 F16/ int8 应该是常见类型,

华为官方公众号的适配昇腾系列硬件中都需要转格式,没有在适配清单里面的意思就是这个型号的硬件跑不起来这个模型
发表于 2025-2-11 09:44 | 显示全部楼层
推理部署不麻烦啊,CPU都可以(个人用也没有特别慢)个人方案最具性价比的应该是 9950x+128G?MoE其实可以量化到1.78bit跑,我看网上实测文章精确率还行;
麻烦的从来都是训练 finetune,好用的框架比如unsloth 都支持N卡
发表于 2025-2-11 09:50 | 显示全部楼层
allenxml 发表于 2025-2-11 09:04
华为官方公众号的适配昇腾系列硬件中都需要转格式,没有在适配清单里面的意思就是这个型号的硬件跑不起来 ...

有没有链接? 我看一下


我看官方其他模型参考, 哪些量化模型, 有提供对应容器。

https://www.hiascend.com/softwar ... eee8318a12429de67b6

注释里面又说,如果用300卡需要修改运行时类型
发表于 2025-2-11 19:32 | 显示全部楼层
gyc 发表于 2025-2-11 09:50
有没有链接? 我看一下

微信公众号:华为计算
然后查看历史文章,就这个月发布的
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-2-21 18:49 , Processed in 0.012392 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表