i6wz1l 发表于 2025-2-7 09:46

最近我想本地部署deepseek真是魔怔了,大家看看这个跑70b模型速度怎么样

最近疯狂的想折腾本地部署deepseek,已经试过了手中的几套配置,基本到14b模型,在往上可用性就不行了,当然目前我也买了很多api,速度都不怎么样,想着深入研究一下本地部署,看了rtx8000、40090 40g魔改、a6000、a100、双路2080ti,很多设备。

目前想法如果咸鱼diy一套7900xtx大概1w元左右(没想到7900xtx也涨价了)

n卡系列二手2080ti是个选择毕竟显存高,其他的显存都太低了,4090 24g显存5090 32g显存价格过高,难买,跑模型高负载如果坏了保修还是问题。
目前好的选择是macmini m4利用统一内存当显存跑,搜索了几个b站视频看起来速度还行。

于是京东关注了mac mini高配 ,发现魔怔的不止我一个,京东高配的mac mini居然都没货了,可能是因为这几天网上的那个利用8台顶配mac m4pro 顶配桥接部署完整r1的模型给部分玩家带来的可行性。

昨天m4pro到货了,我下了个订单,但是没有付款,各位感觉这个配置跑70b    怎么样。



或者说这个价位还有更好的硬件推荐么?

fyc858 发表于 2025-2-7 09:49

跑这个有啥用

i6wz1l 发表于 2025-2-7 09:52

fyc858 发表于 2025-2-7 09:49
跑这个有啥用

折腾玩,另外我写一些文章会用到ai

psps3 发表于 2025-2-7 09:53

楼主能接受的速度是多少?

xy. 发表于 2025-2-7 09:54

估计 8t/s 吧

nn1122 发表于 2025-2-7 09:57

从性能,功耗,体积来讲,Mac是很好的平台,几张2080ti需要多PCIE主板甚至服务器主板来跑,长时间运行那功耗和发热可知

lz2906190 发表于 2025-2-7 10:01

免费的Gemini2.0 flash think 跑到飞快,你自己部署相同效果不得个千八百万。

nepdaisuki 发表于 2025-2-7 10:02

mac不太懂,pc你要至少43g显存可以放模型,考虑到pc还有一大堆应用也要占用显存,至少买48g显卡吧

阳光技师 发表于 2025-2-7 10:04

i6wz1l 发表于 2025-2-7 09:52
折腾玩,另外我写一些文章会用到ai

自己部署不是为了自己训练吗?或者生成一些用自己的算力的东西,比如图片,视频。虚心请教,自己本地部署这玩意儿,到底有啥用处。

jimmy203308 发表于 2025-2-7 10:06

建议cpu环境先搭一个体验下本地的功能,速度可以忽略

pdvc 发表于 2025-2-7 10:06

4090+D5平台,70b实测有6-10token/s的速度

秦南瓜 发表于 2025-2-7 10:06

我也是为了deepseek 70b,刚买300a,满供电,三星显存,5接口,顶部供电,dell涡轮两张,送nvlink[恶魔]
等到货看看~

i6wz1l 发表于 2025-2-7 10:07

秦南瓜 发表于 2025-2-7 10:06
我也是为了deepseek 70b,刚买300a,满供电,三星显存,5接口,顶部供电,dell涡轮两张,送nvlink
等到货 ...

这种的声音应该会很大吧

i6wz1l 发表于 2025-2-7 10:08

pdvc 发表于 2025-2-7 10:06
4090+D5平台,70b实测有6-10token/s的速度

爆显存了,用了一部分内存

forgetted 发表于 2025-2-7 10:08

2080ti这么好卖吗?我还有两张全新屏蔽牌水冷显卡,是不是可以挂到咸鱼?

pdvc 发表于 2025-2-7 10:09

本帖最后由 pdvc 于 2025-2-7 10:11 编辑

i6wz1l 发表于 2025-2-7 10:08
爆显存了,用了一部分内存

对,但速度不慢,可以接受。

另外该试过1.58bit量化的完整版,96GB内存加128GB虚拟内存跑的,只有2token/s速度了,内存也爆了[流汗]

psps3 发表于 2025-2-7 10:09

b站这个视频m4pro芯片64g内存,跑本地 70b deepseek r1 ,速度看上去不快[困惑]
http://b23.tv/hbB0KhA

591280714 发表于 2025-2-7 10:09

70B也是个捞逼,已经测试过了

i6wz1l 发表于 2025-2-7 10:09

nepdaisuki 发表于 2025-2-7 10:02
mac不太懂,pc你要至少43g显存可以放模型,考虑到pc还有一大堆应用也要占用显存,至少买48g显卡吧 ...

只能a100 80g了 哈哈哈

秦南瓜 发表于 2025-2-7 10:12

i6wz1l 发表于 2025-2-7 10:07
这种的声音应该会很大吧

2080ti涡轮相比30 40的涡轮还算安静了。。。。能调速&压tdp的

pdvc 发表于 2025-2-7 10:13

i6wz1l 发表于 2025-2-7 10:09
只能a100 80g了 哈哈哈

两片A100 80G,可以跑1.75bit量化的完整版了

shiangyeh 发表于 2025-2-7 10:14

有这个钱建议直接买个不管什么平台(** 文心一言balabala)的会员或者充值API。

70B确实也只是玩玩

fishensl 发表于 2025-2-7 10:20

最近发现还有个选择,tesla t10 16g单槽3584 cuda150w 功耗,大概2080ti 6 成性能 价格1300直接怼4张

af_x_if 发表于 2025-2-7 10:21

从官方表格来看70b跟32b这两个蒸馏模型其实有来有回。
而部署32b的可行性要高得多,32GB版的macmini或者20GB以上显存的显卡即可。

我輩樹である 发表于 2025-2-7 10:25



内存有点紧张,但应该还是可以跑的,另外你需要留出最少8GB的内存给系统。用sysctl iogpu.wired_limit_mb=<最大内存,(系统内存-8)*1024>命令。

跑之前可以sudo purge一下。

速度有10t,但mac跑主要是看gpu的速度。


jihuan 发表于 2025-2-7 10:26

这么多api能用 一定要部署离线的干嘛?价格贵速度慢费时间,真是想不明白。怕国内api不安全还可以用其他国家的,折腾这些干嘛

Oxyer 发表于 2025-2-7 10:27

我劝你放弃,别给自己添堵

realsavage 发表于 2025-2-7 10:30

我觉得 m4 pro也是内存带宽的问题,因为 max 最高。 如果真的有别的需求可以买。 楼主这个价格其实还行。
如果可以等等 等着今年 m4 ultra 是否可以出来,这样内存带宽肯能会好点。但是70b也没有特别强。

i6wz1l 发表于 2025-2-7 10:48

realsavage 发表于 2025-2-7 10:30
我觉得 m4 pro也是内存带宽的问题,因为 max 最高。 如果真的有别的需求可以买。 楼主这个价格其实还行。
...

是这样的 忍住了 先不买了,在等等

i6wz1l 发表于 2025-2-7 10:48

jihuan 发表于 2025-2-7 10:26
这么多api能用 一定要部署离线的干嘛?价格贵速度慢费时间,真是想不明白。怕国内api不安全还可以用其他国 ...

api买了好几个没一个速度快的,官方的买了,硅基流动买了
页: [1] 2 3
查看完整版本: 最近我想本地部署deepseek真是魔怔了,大家看看这个跑70b模型速度怎么样