找回密码
 加入我们
搜索
      
查看: 17610|回复: 85

[装机] 最近我想本地部署deepseek真是魔怔了,大家看看这个跑70b模型速度怎么样

[复制链接]
发表于 2025-2-7 09:46 | 显示全部楼层 |阅读模式
最近疯狂的想折腾本地部署deepseek,已经试过了手中的几套配置,基本到14b模型,在往上可用性就不行了,当然目前我也买了很多api,速度都不怎么样,想着深入研究一下本地部署,看了rtx8000、40090 40g魔改、a6000、a100、双路2080ti,很多设备。

目前想法如果咸鱼diy一套7900xtx  大概1w元左右(没想到7900xtx也涨价了)

n卡系列二手2080ti是个选择毕竟显存高,其他的显存都太低了,4090 24g显存  5090 32g显存  价格过高,难买,跑模型高负载如果坏了保修还是问题。
目前好的选择是macmini m4  利用统一内存当显存跑,搜索了几个b站视频看起来速度还行。

于是京东关注了mac mini高配 ,发现魔怔的不止我一个,京东高配的mac mini居然都没货了,可能是因为这几天网上的那个利用8台顶配mac m4pro 顶配桥接部署完整r1的模型给部分玩家带来的可行性。

昨天m4pro到货了,我下了个订单,但是没有付款,各位感觉这个配置跑70b    怎么样。
PixPin_2025-02-07_09-43-04.png


或者说这个价位还有更好的硬件推荐么?
发表于 2025-2-7 09:49 | 显示全部楼层
跑这个有啥用
 楼主| 发表于 2025-2-7 09:52 | 显示全部楼层

折腾玩,另外我写一些文章会用到ai
发表于 2025-2-7 09:53 来自手机 | 显示全部楼层
楼主能接受的速度是多少?
发表于 2025-2-7 09:54 | 显示全部楼层
估计 8t/s 吧
发表于 2025-2-7 09:57 | 显示全部楼层
从性能,功耗,体积来讲,Mac是很好的平台,几张2080ti需要多PCIE主板甚至服务器主板来跑,长时间运行那功耗和发热可知
发表于 2025-2-7 10:01 | 显示全部楼层
免费的Gemini2.0 flash think 跑到飞快,你自己部署相同效果不得个千八百万。
发表于 2025-2-7 10:02 | 显示全部楼层
mac不太懂,pc你要至少43g显存可以放模型,考虑到pc还有一大堆应用也要占用显存,至少买48g显卡吧
发表于 2025-2-7 10:04 | 显示全部楼层
i6wz1l 发表于 2025-2-7 09:52
折腾玩,另外我写一些文章会用到ai

自己部署不是为了自己训练吗?或者生成一些用自己的算力的东西,比如图片,视频。虚心请教,自己本地部署这玩意儿,到底有啥用处。
发表于 2025-2-7 10:06 | 显示全部楼层
建议cpu环境先搭一个体验下本地的功能,速度可以忽略
发表于 2025-2-7 10:06 来自手机 | 显示全部楼层
4090+D5平台,70b实测有6-10token/s的速度
发表于 2025-2-7 10:06 | 显示全部楼层
我也是为了deepseek 70b,刚买300a,满供电,三星显存,5接口,顶部供电,dell涡轮两张,送nvlink
等到货看看~
微信图片_20250207100523.jpg
 楼主| 发表于 2025-2-7 10:07 | 显示全部楼层
秦南瓜 发表于 2025-2-7 10:06
我也是为了deepseek 70b,刚买300a,满供电,三星显存,5接口,顶部供电,dell涡轮两张,送nvlink
等到货 ...

这种的声音应该会很大吧
 楼主| 发表于 2025-2-7 10:08 | 显示全部楼层
pdvc 发表于 2025-2-7 10:06
4090+D5平台,70b实测有6-10token/s的速度

爆显存了,用了一部分内存
发表于 2025-2-7 10:08 | 显示全部楼层
2080ti这么好卖吗?我还有两张全新屏蔽牌水冷显卡,是不是可以挂到咸鱼?
发表于 2025-2-7 10:09 来自手机 | 显示全部楼层
本帖最后由 pdvc 于 2025-2-7 10:11 编辑
i6wz1l 发表于 2025-2-7 10:08
爆显存了,用了一部分内存


对,但速度不慢,可以接受。

另外该试过1.58bit量化的完整版,96GB内存加128GB虚拟内存跑的,只有2token/s速度了,内存也爆了
发表于 2025-2-7 10:09 来自手机 | 显示全部楼层
b站这个视频m4pro芯片64g内存,跑本地 70b deepseek r1 ,速度看上去不快
http://b23.tv/hbB0KhA
发表于 2025-2-7 10:09 | 显示全部楼层
70B也是个捞逼,已经测试过了
 楼主| 发表于 2025-2-7 10:09 | 显示全部楼层
nepdaisuki 发表于 2025-2-7 10:02
mac不太懂,pc你要至少43g显存可以放模型,考虑到pc还有一大堆应用也要占用显存,至少买48g显卡吧 ...

只能a100 80g了 哈哈哈
发表于 2025-2-7 10:12 | 显示全部楼层
i6wz1l 发表于 2025-2-7 10:07
这种的声音应该会很大吧

2080ti涡轮相比30 40的涡轮还算安静了。。。。能调速&压tdp的
发表于 2025-2-7 10:13 来自手机 | 显示全部楼层
i6wz1l 发表于 2025-2-7 10:09
只能a100 80g了 哈哈哈

两片A100 80G,可以跑1.75bit量化的完整版了
发表于 2025-2-7 10:14 来自手机 | 显示全部楼层
有这个钱建议直接买个不管什么平台(** 文心一言balabala)的会员或者充值API。

70B确实也只是玩玩
发表于 2025-2-7 10:20 | 显示全部楼层
最近发现还有个选择,tesla t10 16g单槽  3584 cuda  150w 功耗,大概2080ti 6 成性能 价格1300直接怼4张
发表于 2025-2-7 10:21 | 显示全部楼层
从官方表格来看70b跟32b这两个蒸馏模型其实有来有回。
而部署32b的可行性要高得多,32GB版的macmini或者20GB以上显存的显卡即可。
发表于 2025-2-7 10:25 | 显示全部楼层
截屏2025-02-07 10.17.49.png 截屏2025-02-07 10.19.47.png

内存有点紧张,但应该还是可以跑的,另外你需要留出最少8GB的内存给系统。用sysctl iogpu.wired_limit_mb=<最大内存,(系统内存-8)*1024>命令。

跑之前可以sudo purge一下。

速度有10t,但mac跑主要是看gpu的速度。


评分

参与人数 1邪恶指数 +5 收起 理由
Barcelona + 5 就是NB

查看全部评分

发表于 2025-2-7 10:26 来自手机 | 显示全部楼层
这么多api能用 一定要部署离线的干嘛?价格贵速度慢费时间,真是想不明白。怕国内api不安全还可以用其他国家的,折腾这些干嘛
发表于 2025-2-7 10:27 | 显示全部楼层
我劝你放弃,别给自己添堵
发表于 2025-2-7 10:30 | 显示全部楼层
我觉得 m4 pro也是内存带宽的问题,因为 max 最高。 如果真的有别的需求可以买。 楼主这个价格其实还行。
如果可以等等 等着今年 m4 ultra 是否可以出来,这样内存带宽肯能会好点。  但是70b也没有特别强。
 楼主| 发表于 2025-2-7 10:48 | 显示全部楼层
realsavage 发表于 2025-2-7 10:30
我觉得 m4 pro也是内存带宽的问题,因为 max 最高。 如果真的有别的需求可以买。 楼主这个价格其实还行。
...

是这样的 忍住了 先不买了,在等等
 楼主| 发表于 2025-2-7 10:48 | 显示全部楼层
jihuan 发表于 2025-2-7 10:26
这么多api能用 一定要部署离线的干嘛?价格贵速度慢费时间,真是想不明白。怕国内api不安全还可以用其他国 ...

api买了好几个没一个速度快的,官方的买了,硅基流动买了
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-22 09:43 , Processed in 0.013590 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表