双intel a770 16g本地部署deepseek 32b蒸馏模型

earn21th 发表于 2025-3-18 19:26

本帖最后由 earn21th 于 2025-3-18 19:26 编辑

最近看了几贴此方案，于是就想自己来试试。

现在小黄鱼上价格还行，买了两张公版2800搞定。

win11上用lm部署，实测下来生成速度还是要比单张nv显卡慢不少(主要原因还是cuda的效率比较高)，优点就在于便宜，intel支持两张交火并且显存可叠加，可用，操作简单。
平均在11 token/s

运行中的负载

ANSANGLI 发表于 2025-3-18 19:34

不错。昨天看到一个单卡4090运行DeepSeek满血版KTransformers。现在门槛越来越低了。不过4090还是有点贵。下不手。

建议柠檬 发表于 2025-3-18 19:53

B580不说有24G么
回头弄个三五张，这事儿就基本上齐活了

老饭发表于 2025-3-18 20:14

好像跟macmini速度差不多？

ImGrG 发表于 2025-3-18 20:16

建议柠檬发表于 2025-3-18 19:53
B580不说有24G么
回头弄个三五张，这事儿就基本上齐活了

B580不是只有12G的大小吗

sun3797 发表于 2025-3-18 20:40

测一下vllm和ollama，应该会有提升

ttsammammb 发表于 2025-3-18 20:41

再多加两三张会更好么[困惑]

建议柠檬 发表于 2025-3-18 20:42

ImGrG 发表于 2025-3-18 20:16
B580不是只有12G的大小吗

前几天看说要出24G了

StevenG 发表于 2025-3-18 20:58

ttsammammb 发表于 2025-3-18 20:41
再多加两三张会更好么

intel官方的文档，4卡能70b

StevenG 发表于 2025-3-18 21:01

那个手里六张卡的卖家？我见他死活不肯包邮，就没下手，昨晚在狗东不到1700买了两张全新的，不过不是公版，搞不了四卡直插。不过也无所谓了，我是给同事买来一起打游戏用的，游戏不玩了再来耍耍deepseek[狂笑]

StevenG 发表于 2025-3-18 21:04

还有，楼主用的板子是家用版还是服务器板子，pcie带宽也可能是瓶颈，家用只能双x8

ITNewTyper 发表于 2025-3-18 21:33

这么说2张B580也可以交火？

ttsammammb 发表于 2025-3-18 22:08

StevenG 发表于 2025-3-18 20:58
intel官方的文档，4卡能70b

看2楼的回复，4张a770跑满血版deepseek有戏么，应该要大内存[困惑]

Noctis_Lunafrey 发表于 2025-3-18 22:32

不错，显存叠加很重要

tedaz 发表于 2025-3-18 22:38

这玩意儿跑多卡，是纯软件，还是硬件显卡需要SLI之类的线缆连接？

薪王化身 发表于 2025-3-18 23:31

我说今天咋有人要买我挂的公版A770，还愿意直接转钱……[睡觉]

mumford 发表于 2025-3-19 00:19

我是正好手头剩几张6700xt，就拿了两张跑32B，也是11左右

panzerlied 发表于 2025-3-19 00:37

mumford 发表于 2025-3-19 00:19
我是正好手头剩几张6700xt，就拿了两张跑32B，也是11左右

还可以了

zvcs 发表于 2025-3-19 08:58

本质上还是一张卡在计算。。。。

c2h6o 发表于 2025-3-19 09:14

ttsammammb 发表于 2025-3-18 22:08
看2楼的回复，4张a770跑满血版deepseek有戏么，应该要大内存

没戏，最多是671B量化版。

tiantian80 发表于 2025-3-19 09:42

昨天装了DS在8745H上，内存显存分配为32G+16G
下了14B的模型，运行占用大概15g
用下来发现运行在内存里用CPU推理比运行在集显上速度快一倍，780M集显还是性能弱了点

st1860 发表于 2025-3-19 09:58

双卡32B Q4才11t/s ？
比我想象中要低太多了，你GPU卸载拉满了吗

港城钢铁侠 发表于 2025-3-19 10:01

这个速度肯定是没调好的，目前效率最高的应该还是vllm，但是对于i卡的支持性暂时未知。建议楼主试下Linux下部署，还有就是两卡的话最好都是插在直连CPU的PCIE上，两个4.0 x8的话速度应该还能再快点

kkiller007 发表于 2025-3-19 10:04

我的板子双卡只有3.0x8 应该会更慢

st1860 发表于 2025-3-19 10:05

StevenG 发表于 2025-3-18 20:58
intel官方的文档，4卡能70b

官方那个是4卡32B FP16 66G
而且最重要的人家是w7-3455 有加速芯片的，八通道D5，也就是频率没拉到8000
不然那四张卡都是多余的

StevenG 发表于 2025-3-19 10:26

st1860 发表于 2025-3-19 10:05
官方那个是4卡32B FP16 66G
而且最重要的人家是w7-3455 有加速芯片的，八通道D5，也就是频率没拉到8000
...

那篇文章里最后有个表格，4卡能跑量化版本的70b。还有，那个文章里，其实没有amx的配置，就是说用不用至强都可以。。不过它的预告倒是写了，未来会基于清华的技术和amx适配一版满血版

st1860 发表于 2025-3-19 10:29

StevenG 发表于 2025-3-19 10:26
那篇文章里最后有个表格，4卡能跑量化版本的70b。还有，那个文章里，其实没有amx的配置，就是说用不用至 ...

楼主的11t/s低过头了
B站有个Z890+265K+D5 8000双卡的能跑32b q425t/s

StevenG 发表于 2025-3-19 10:36

st1860 发表于 2025-3-19 10:29
楼主的11t/s低过头了
B站有个Z890+265K+D5 8000双卡的能跑32b q425t/s

内存带宽肯定有影响，我买了2块770还在路上，先借给同事玩玩游戏，等五一放假，我试试epyc ddr4平台，估计还能提升一些

古明地觉 发表于 2025-3-19 10:53

本帖最后由古明地觉于 2025-3-19 11:21 编辑

[困惑]说起来a770这个价位和规格倒是和魔改v100 16g 撞个满怀。。。v100那边速度虽然倒是能接近3090有快30tks，但是400w的转接魔改卡是真的让人放不下心，而且是真的除了大语言模型啥也不行。。。和a770的稳定保值但速度差点属于是两个极端了。

突然想起来t10好像也在一千三四这个范畴。。。双卡用vllm配置好单发32bQ6能有十七八tks，也算是一个不那么极端的选项了

毛茸茸 发表于 2025-3-19 12:32

建议柠檬发表于 2025-3-18 20:42
前几天看说要出24G了

去年就说了，到现在还没影子，不过牙膏确实在努力出大显存的新卡，看电商供货能感觉的到。

页: [1] 2

Chiphell - 分享与交流用户体验's Archiver

双intel a770 16g本地部署deepseek 32b蒸馏模型