earn21th 发表于 2025-3-18 19:26

双intel a770 16g本地部署deepseek 32b蒸馏模型

本帖最后由 earn21th 于 2025-3-18 19:26 编辑

最近看了几贴此方案,于是就想自己来试试。

现在小黄鱼上价格还行,买了两张公版2800搞定。

win11上用lm部署,实测下来生成速度还是要比单张nv显卡慢不少(主要原因还是cuda的效率比较高),优点就在于便宜,intel支持两张交火并且显存可叠加,可用,操作简单。
平均在11 token/s





运行中的负载

ANSANGLI 发表于 2025-3-18 19:34

不错。昨天看到一个单卡4090运行DeepSeek满血版KTransformers。现在门槛越来越低了。不过4090还是有点贵。下不手。

建议柠檬 发表于 2025-3-18 19:53

B580不说有24G么
回头弄个三五张,这事儿就基本上齐活了

老饭 发表于 2025-3-18 20:14

好像跟macmini速度差不多?

ImGrG 发表于 2025-3-18 20:16

建议柠檬 发表于 2025-3-18 19:53
B580不说有24G么
回头弄个三五张,这事儿就基本上齐活了

B580不是只有12G的大小吗

sun3797 发表于 2025-3-18 20:40

测一下vllm和ollama,应该会有提升

ttsammammb 发表于 2025-3-18 20:41

再多加两三张会更好么[困惑]

建议柠檬 发表于 2025-3-18 20:42

ImGrG 发表于 2025-3-18 20:16
B580不是只有12G的大小吗

前几天看说要出24G了

StevenG 发表于 2025-3-18 20:58

ttsammammb 发表于 2025-3-18 20:41
再多加两三张会更好么

intel官方的文档,4卡能70b

StevenG 发表于 2025-3-18 21:01

那个手里六张卡的卖家?我见他死活不肯包邮,就没下手,昨晚在狗东不到1700买了两张全新的,不过不是公版,搞不了四卡直插。不过也无所谓了,我是给同事买来一起打游戏用的,游戏不玩了再来耍耍deepseek[狂笑]

StevenG 发表于 2025-3-18 21:04

还有,楼主用的板子是家用版还是服务器板子,pcie带宽也可能是瓶颈,家用只能双x8

ITNewTyper 发表于 2025-3-18 21:33

这么说2张B580也可以交火?

ttsammammb 发表于 2025-3-18 22:08

StevenG 发表于 2025-3-18 20:58
intel官方的文档,4卡能70b

看2楼的回复,4张a770跑满血版deepseek有戏么,应该要大内存[困惑]

Noctis_Lunafrey 发表于 2025-3-18 22:32

不错,显存叠加很重要

tedaz 发表于 2025-3-18 22:38

这玩意儿跑多卡,是纯软件,还是硬件显卡需要SLI之类的线缆连接?

薪王化身 发表于 2025-3-18 23:31

我说今天咋有人要买我挂的公版A770,还愿意直接转钱……[睡觉]

mumford 发表于 2025-3-19 00:19

我是正好手头剩几张6700xt,就拿了两张跑32B,也是11左右

panzerlied 发表于 2025-3-19 00:37

mumford 发表于 2025-3-19 00:19
我是正好手头剩几张6700xt,就拿了两张跑32B,也是11左右

还可以了

zvcs 发表于 2025-3-19 08:58

本质上还是一张卡在计算。。。。

c2h6o 发表于 2025-3-19 09:14

ttsammammb 发表于 2025-3-18 22:08
看2楼的回复,4张a770跑满血版deepseek有戏么,应该要大内存

没戏,最多是671B量化版。

tiantian80 发表于 2025-3-19 09:42

昨天装了DS在8745H上,内存显存分配为32G+16G
下了14B的模型,运行占用大概15g
用下来发现运行在内存里用CPU推理比运行在集显上速度快一倍,780M集显还是性能弱了点

st1860 发表于 2025-3-19 09:58

双卡32B Q4才11t/s ?
比我想象中要低太多了,你GPU卸载拉满了吗

港城钢铁侠 发表于 2025-3-19 10:01

这个速度肯定是没调好的,目前效率最高的应该还是vllm,但是对于i卡的支持性暂时未知。建议楼主试下Linux下部署,还有就是两卡的话最好都是插在直连CPU的PCIE上,两个4.0 x8的话速度应该还能再快点

kkiller007 发表于 2025-3-19 10:04

我的板子双卡只有3.0x8 应该会更慢

st1860 发表于 2025-3-19 10:05

StevenG 发表于 2025-3-18 20:58
intel官方的文档,4卡能70b

官方那个是4卡32B FP16 66G
而且最重要的人家是w7-3455 有加速芯片的,八通道D5,也就是频率没拉到8000
不然那四张卡都是多余的

StevenG 发表于 2025-3-19 10:26

st1860 发表于 2025-3-19 10:05
官方那个是4卡32B FP16 66G
而且最重要的人家是w7-3455 有加速芯片的,八通道D5,也就是频率没拉到8000
...

那篇文章里最后有个表格,4卡能跑量化版本的70b。还有,那个文章里,其实没有amx的配置,就是说用不用至强都可以。。不过它的预告倒是写了,未来会基于清华的技术和amx适配一版满血版

st1860 发表于 2025-3-19 10:29

StevenG 发表于 2025-3-19 10:26
那篇文章里最后有个表格,4卡能跑量化版本的70b。还有,那个文章里,其实没有amx的配置,就是说用不用至 ...

楼主的11t/s低过头了
B站有个Z890+265K+D5 8000双卡的能跑32b q425t/s

StevenG 发表于 2025-3-19 10:36

st1860 发表于 2025-3-19 10:29
楼主的11t/s低过头了
B站有个Z890+265K+D5 8000双卡的能跑32b q425t/s

内存带宽肯定有影响,我买了2块770还在路上,先借给同事玩玩游戏,等五一放假,我试试epyc ddr4平台,估计还能提升一些

古明地觉 发表于 2025-3-19 10:53

本帖最后由 古明地觉 于 2025-3-19 11:21 编辑

[困惑]说起来a770这个价位和规格倒是和魔改v100 16g 撞个满怀。。。v100那边速度虽然倒是能接近3090有快30tks,但是400w的转接魔改卡是真的让人放不下心,而且是真的除了大语言模型啥也不行。。。和a770的稳定保值但速度差点属于是两个极端了。


突然想起来t10好像也在一千三四这个范畴。。。双卡用vllm配置好单发32bQ6能有十七八tks,也算是一个不那么极端的选项了

毛茸茸 发表于 2025-3-19 12:32

建议柠檬 发表于 2025-3-18 20:42
前几天看说要出24G了

去年就说了,到现在还没影子,不过牙膏确实在努力出大显存的新卡,看电商供货能感觉的到。
页: [1] 2
查看完整版本: 双intel a770 16g本地部署deepseek 32b蒸馏模型