本地dsr1 671b8位 性价比最高的方案是华为300i duo吗?
本帖最后由 qdzx123 于 2025-2-9 17:15 编辑大概15000到20000一张 96g显存
8张96x8 400的带宽 总带宽3200
20万左右能把一个o1级别的大模型运行起来还是挺带劲的
不知道能不能找到性价比更高的方案
ps:目前的cpu方案都不具备实用价值 过于慢了 速度如何呢? 不考虑速度的话洋垃圾cpu塞满内存就能跑了[偷笑] 华为的卡生态支持怎么样,配置起来容易吗? epyc 1t内存 关键是什么需求,cpu方案速度够不够个人使用,计算卡方案又能满足多少人规模的负载 500G没错能跑cpu版,自己用用是足够了 其实我感觉本地化deepseek好像就和加载的存储有关,满血8bit要600多G显存,这帮显卡厂商肯定会出类似于以前狂牛版的那种狂堆显存的卡,对了还得往上提位宽,要不然支持不了那么大显存。至于GPU的性能提升对于个人或者小客户来说似乎不那么重要了,毕竟现在连CPU方案的速度也有人能忍。 大概有两个问题
1. 生态是否支持, 由于国内这些给的开发资料很少,而且大多是要签署保密协议给公司的。 个人就算买来硬件很难操作。
2. 你需要自己优化和编译运行工具, 比如 llama.cpp,你可能需要自己建立分支,然后编写执行器。但这有需要上边详细技术参数,比如 多项式加法,输入什么格式,输出什么格式。
或者你可以绕过这些,用它们的编译工具,转换模型,但可能出现错误(毕竟 python 是个卡版本号的大坑环境)
这样就会获得专用模型,如果要对外提供服务,那么你还需要自己写一个API兼容接口,给其他程序调用。
你要是不在乎速度,只是想跑起来,其实虚拟内存设置600G就能跑起来了,只不过1小时回复你一句话而已[偷笑] 显存不过是快而已,内存也能跑,DS不跑cuda 就是要了老黄的皮衣![偷笑] 我现在就是用 32 张昇腾 910B2 本地部署的 DeepSeek R1 671B 模型,只是推理部署没有这么麻烦,MindIE 框架照着教程挺快就完事了。昇腾和其他厂的卡在推理方面从来都不是很麻烦,麻烦的是训练里面有些算子不兼容。 gyc 发表于 2025-2-9 16:19
大概有两个问题
1. 生态是否支持, 由于国内这些给的开发资料很少,而且大多是要签署保密协议给公司的。 个 ...
没有这么麻烦,华为的 MindIE 框架基本上就是一条龙服务,照着教程就是起个 Docker,里面都是推理各种模型的脚本,也是可以一键向外提供 API 服务的 300i duo 是昇腾 310B,我看目前 MindIE 框架的文档都是 910B 系列的。可能是因为 310B 的互联带宽有限制,不确定 310B 是否支持。 ZEROAONE 发表于 2025-2-9 23:11
没有这么麻烦,华为的 MindIE 框架基本上就是一条龙服务,照着教程就是起个 Docker,里面都是推理各种模 ...
就怕更新不够快, 比如: 智普的小视觉模型就是 修改的llama 运行时,没有迁入到官方库。
这种模型,你要适配就麻烦的要命。。 gyc 发表于 2025-2-10 00:14
就怕更新不够快, 比如: 智普的小视觉模型就是 修改的llama 运行时,没有迁入到官方库。
这种模型,你 ...
MindIE更新的还是挺快的,更不用说还是国产模型了,工程师跟进非常积极
好吧,我去官方看一下
真有一篇文章,
https://www.hiascend.com/software/modelzoo/models/detail/68457b8a51324310aad9a0f55c3e56e3
根据这个文章,
要部署DeepSeek-R1模型用BF16权重进行推理至少需要4台Atlas 800I A2(8*64G)服务器,用W8A8量化权重进行推理则至少需要2台Atlas 800I A2 (8*64G)
所以需要的是至少2048G显存,8bit 量化 需要 1024G, 按照 300I 96GB 2.8W价格,需要大概12个,也就是33.6W,一台服务器最多安装8个,那么需要两台服务器, 也就说至少 40~50W了吧
晕,发现一个更有趣的东西
香橙派OrangePi AIStudio Pro
看了以下说明书,这东西就是一个外置显卡啊, 用雷电PCIE通道外接。。到系统。。
本质就是是300I,不过价格好像要便宜很多
300i duo我记得是单卡双芯,这两个芯片可以跑两卡并行,但并不能跟其他卡进行hccl或者rdma互联 华为官方公众号的适配昇腾系列硬件中,没有300I DUO与671B版本的适配兼容性 allenxml 发表于 2025-2-10 17:21
华为官方公众号的适配昇腾系列硬件中,没有300I DUO与671B版本的适配兼容性
需要自行转换模型吧,给的教程
大致看了以下,需要支持 F16/ int8 应该是常见类型,
不过就算这样也要 至少11块左右,两台服务器,大致看到资料这卡支持网络互联,因此至少还给有个高速网卡,不过两台机器,可以不用交换机 gyc 发表于 2025-2-11 00:23
需要自行转换模型吧,给的教程
大致看了以下,需要支持 F16/ int8 应该是常见类型,
华为官方公众号的适配昇腾系列硬件中都需要转格式,没有在适配清单里面的意思就是这个型号的硬件跑不起来这个模型 推理部署不麻烦啊,CPU都可以(个人用也没有特别慢)个人方案最具性价比的应该是 9950x+128G?MoE其实可以量化到1.78bit跑,我看网上实测文章精确率还行;
麻烦的从来都是训练 finetune,好用的框架比如unsloth 都支持N卡 allenxml 发表于 2025-2-11 09:04
华为官方公众号的适配昇腾系列硬件中都需要转格式,没有在适配清单里面的意思就是这个型号的硬件跑不起来 ...
有没有链接? 我看一下
我看官方其他模型参考, 哪些量化模型, 有提供对应容器。
https://www.hiascend.com/software/modelzoo/models/detail/2a0d0cb1bc644eee8318a12429de67b6
注释里面又说,如果用300卡需要修改运行时类型 gyc 发表于 2025-2-11 09:50
有没有链接? 我看一下
微信公众号:华为计算
然后查看历史文章,就这个月发布的 Neo_Granzon 发表于 2025-2-9 14:23
华为的卡生态支持怎么样,配置起来容易吗?
我们公司预研用了几张N卡,生产环境大规模部署全是华为的卡。有任何问题甩给华为支持,他们解决的很快。准备年终写PPT时对标 5090 帮公司省钱xx 凑一页。[狂笑] 那玩意有技术支持都不咋好用。
我感觉民用平台196G+双48G显卡就能玩2.22bit量化的模型,不如指望开源社区的优化。如果能优化到平均10tokens/s,实用性就比较高了。
农企的ai395再连结N卡的类似技术路线我感觉更看好点,用四通道甚至更高通道cpu接双卡或者直接H20 96G跑,玩穷人版的gh200,可惜这代农企pcie通道给的少。 gyc 发表于 2025-2-10 17:12
晕,发现一个更有趣的东西
香橙派OrangePi AIStudio Pro
还是等评测吧现在预购开启了3月中旬卖 速度不行的把...华为给下的建议是,4台8卡910B 32G HCCS去部署deepseek R1 671B 本帖最后由 zhuifeng88 于 2025-2-27 12:14 编辑
要说910b还凑合, 300I duo且不提r1, 不如先看看怎么在没有专人技术支持的情况下把常见2bit量化格式的7b dense模型跑起来再说...(甚至都不用提2bit, 这玩意烂大街的4bit和8bit量化都几乎没有支持), 300I全系都是pre llm时代的东西, 设计目标是给114514路监控摄像头CNN模型推理用的, 现在硬往llm上凑根本不可能好用得起来
更何况你为什么会觉得哪怕能跑起来r1, 300I duo能比cpu快, 这玩意几乎没有互联能力
页:
[1]
2