找回密码
 加入我们
搜索
      
查看: 10860|回复: 52

[显卡] 自己部署deepseek-r1是选5000ada还是a6000好

[复制链接]
发表于 2025-1-21 23:13 | 显示全部楼层 |阅读模式
一个32gb 一个48gb
我看了下都只能跑32b 区别是一个是全程q8量化 一个是q6推理 q8输出
加钱6000ada单卡也跑不了完整模型
发表于 2025-1-21 23:18 | 显示全部楼层
官方推荐 H100/H800*8,你真的要自己部署这个吗,自己部署的成本百分之百比官方API高,速度比官方API慢
 楼主| 发表于 2025-1-21 23:21 | 显示全部楼层
neavo 发表于 2025-1-21 23:18
官方推荐 H100/H800*8,你真的要自己部署这个吗,自己部署的成本百分之百比官方API高,速度比官方API慢 ...

肯定是部署distilled的版本啊 32b的那个
我之前没研究过用api 都是直接开的**和claude,一个月加起来50刀往上还有用量限制 用力半年多有的时候token还不够用,成本也不低了
如果用deepseek的api的话 前端有推荐的吗
发表于 2025-1-21 23:21 来自手机 | 显示全部楼层
neavo 发表于 2025-1-21 23:18
官方推荐 H100/H800*8,你真的要自己部署这个吗,自己部署的成本百分之百比官方API高,速度比官方API慢 ...

可能是要求保密吧
发表于 2025-1-21 23:25 | 显示全部楼层
本帖最后由 neavo 于 2025-1-21 23:30 编辑
kingofgu 发表于 2025-1-21 23:21
肯定是部署distilled的版本啊 32b的那个
我之前没研究过用api 都是直接开的**和claude,一个月加起来50刀 ...


那 4090 就可以了 。。。本质上就是 Qwen-2.5-32B,想快一点就多来两块4090

这几个蒸馏版我玩了一天了,确实在本地模型里面也是断崖式的强,但是跟在线模型还是有差距的

为了这个买卡不如直接买官方 API 用,DS 的 API 不限制并发数,快到飞起
 楼主| 发表于 2025-1-21 23:38 | 显示全部楼层
neavo 发表于 2025-1-21 23:25
那 4090 就可以了 。。。本质上就是 Qwen-2.5-32B,想快一点就多来两块4090

这几个蒸馏版我玩了一天了, ...

买api的话有推荐的前端吗
 楼主| 发表于 2025-1-21 23:39 | 显示全部楼层

确实也有很多单位有保密需要的 但我只是个人用用
发表于 2025-1-21 23:46 | 显示全部楼层
kingofgu 发表于 2025-1-21 23:38
买api的话有推荐的前端吗

只是聊聊天的话,我觉得用官网免费网页版就可以了,完全没有任何使用量的限制

需要API进行数据二次处理就看你自己的需求了,我都是写脚本直接处理数据的,没怎么用过聊天 UI
发表于 2025-1-22 00:01 | 显示全部楼层
LZ 真壕。。。自己玩,买5000Ada、A6000。。。可以上魔改的48G 4090
发表于 2025-1-22 00:11 来自手机 | 显示全部楼层
廉价版可以8480+1T+内存,不知道能到几token/s。
发表于 2025-1-22 01:22 | 显示全部楼层
neavo 发表于 2025-1-21 23:25
那 4090 就可以了 。。。本质上就是 Qwen-2.5-32B,想快一点就多来两块4090

这几个蒸馏版我玩了一天了, ...

和qwen2.5有啥区别?

 楼主| 发表于 2025-1-22 01:30 | 显示全部楼层
uprit 发表于 2025-1-22 01:22
和qwen2.5有啥区别?

权重不一样
发表于 2025-1-22 03:11 | 显示全部楼层
uprit 发表于 2025-1-21 17:22
和qwen2.5有啥区别?

借用Nvidia一张图
IMG_1410.png
发表于 2025-1-22 04:07 | 显示全部楼层
前端用cherry studio
发表于 2025-1-22 04:26 | 显示全部楼层
neavo 发表于 2025-1-21 15:46
只是聊聊天的话,我觉得用官网免费网页版就可以了,完全没有任何使用量的限制

需要API进行数据二次处理 ...

网页版试用了一下一直拒绝访问网站 哪怕是public的站点比如https://qwen.readthedocs.io
自己host就完全没问题
 楼主| 发表于 2025-1-22 07:09 | 显示全部楼层

试了一下 还可以 搭配LM Studio一个本地一个在线基本零代码部署即开即用
 楼主| 发表于 2025-1-22 07:10 | 显示全部楼层
YsHaNg 发表于 2025-1-22 04:26
网页版试用了一下一直拒绝访问网站 哪怕是public的站点比如https://qwen.readthedocs.io
自己host就完全 ...

检查一下自己的网络出口是不是被黑名单了 用手机开热点访问一下试试
发表于 2025-1-22 09:20 | 显示全部楼层
YsHaNg 发表于 2025-1-22 04:26
网页版试用了一下一直拒绝访问网站 哪怕是public的站点比如https://qwen.readthedocs.io
自己host就完全 ...

你在海外么?
发表于 2025-1-22 09:21 | 显示全部楼层
最便宜的方案。

1.png 2.png
发表于 2025-1-22 09:43 | 显示全部楼层
完全体的R1是660B啊,你说的是R1蒸馏出的小模型,那两张消费级旗舰卡就能跑了,还要看你上下文,RAG 大小
发表于 2025-1-22 09:45 | 显示全部楼层
YsHaNg 发表于 2025-1-22 04:26
网页版试用了一下一直拒绝访问网站 哪怕是public的站点比如https://qwen.readthedocs.io
自己host就完全 ...

所以前面说看个人需求,不过这几个蒸馏版拿来干活还是粗糙了点,而且本地跑就算是4090也挺慢的,能 API 还是尽量 API
 楼主| 发表于 2025-1-22 10:29 来自手机 | 显示全部楼层
我輩樹である 发表于 2025-1-22 09:21
最便宜的方案。

用苹果硅跑是吗 不是说prefill会瓶颈导致整体token编码速度上不来吗
你这么一说 我感觉strix halo有搞头了
发表于 2025-1-22 10:32 | 显示全部楼层
本帖最后由 我輩樹である 于 2025-1-22 10:39 编辑
kingofgu 发表于 2025-1-22 10:29
用苹果硅跑是吗 不是说prefill会瓶颈导致整体token编码速度上不来吗
你这么一说 我感觉strix halo有搞头 ...


prefill的时间20-25秒。图里面有。
strix halo可能跟mac有一样的问题,GPU不够强。
发表于 2025-1-22 10:39 | 显示全部楼层
本帖最后由 neavo 于 2025-1-22 10:40 编辑
kingofgu 发表于 2025-1-22 10:29
用苹果硅跑是吗 不是说prefill会瓶颈导致整体token编码速度上不来吗
你这么一说 我感觉strix halo有搞头 ...


推理很慢,已经有设备了将就用一下挺好的,专门为了推理买 Mac 设备就没什么性价比了
发表于 2025-1-22 19:34 来自手机 | 显示全部楼层
我輩樹である 发表于 2025-1-22 01:20
你在海外么?

对 是境内网站需要censorship的缘故吗
发表于 2025-1-22 19:35 | 显示全部楼层
YsHaNg 发表于 2025-1-22 19:34
对 是境内网站需要censorship的缘故吗

现在好像不想给境外提供服务。
发表于 2025-1-22 19:36 来自手机 | 显示全部楼层
kingofgu 发表于 2025-1-21 23:10
检查一下自己的网络出口是不是被黑名单了 用手机开热点访问一下试试

我是指让模型去访问站点
发表于 2025-1-22 19:38 来自手机 | 显示全部楼层
我輩樹である 发表于 2025-1-22 11:35
现在好像不想给境外提供服务。

那我挂**用吧
发表于 2025-1-22 19:45 | 显示全部楼层
目前两张4090,可以vllm部署qwen 32b,但没法部署70b的。

用lmstudio 70b的模型能跑,但上下文很短。

目前我是小规模想省钱就本地vllm,不过多数还是直接api了。
发表于 2025-1-22 19:45 来自手机 | 显示全部楼层
neavo 发表于 2025-1-22 01:45
所以前面说看个人需求,不过这几个蒸馏版拿来干活还是粗糙了点,而且本地跑就算是4090也挺慢的,能 API  ...

你们能让网页r1访问站点吗 我试了搜索可以 但是扔一个网址给它就不行 类似于rag 如果不能做api也没辙吧 本地host用rag是独立的embedding model一点问题没有
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-23 01:19 , Processed in 0.014901 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表